{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.992801439712058,
  "eval_steps": 500,
  "global_step": 3996,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0014997000599880025,
      "grad_norm": 0.8465994596481323,
      "learning_rate": 0.0,
      "loss": 0.4643,
      "step": 1
    },
    {
      "epoch": 0.002999400119976005,
      "grad_norm": 0.20484967529773712,
      "learning_rate": 1.8790182470910758e-05,
      "loss": 0.3884,
      "step": 2
    },
    {
      "epoch": 0.004499100179964007,
      "grad_norm": 0.20348379015922546,
      "learning_rate": 2.978173459810155e-05,
      "loss": 0.3946,
      "step": 3
    },
    {
      "epoch": 0.00599880023995201,
      "grad_norm": 0.17724056541919708,
      "learning_rate": 3.7580364941821516e-05,
      "loss": 0.3627,
      "step": 4
    },
    {
      "epoch": 0.007498500299940012,
      "grad_norm": 0.1992926150560379,
      "learning_rate": 4.3629452587267724e-05,
      "loss": 0.3704,
      "step": 5
    },
    {
      "epoch": 0.008998200359928014,
      "grad_norm": 0.14462688565254211,
      "learning_rate": 4.85719170690123e-05,
      "loss": 0.3327,
      "step": 6
    },
    {
      "epoch": 0.010497900419916016,
      "grad_norm": 0.1616557538509369,
      "learning_rate": 5.2750711246071826e-05,
      "loss": 0.3548,
      "step": 7
    },
    {
      "epoch": 0.01199760047990402,
      "grad_norm": 0.1351473331451416,
      "learning_rate": 5.637054741273227e-05,
      "loss": 0.3333,
      "step": 8
    },
    {
      "epoch": 0.013497300539892022,
      "grad_norm": 0.13947610557079315,
      "learning_rate": 5.95634691962031e-05,
      "loss": 0.316,
      "step": 9
    },
    {
      "epoch": 0.014997000599880024,
      "grad_norm": 0.12220782786607742,
      "learning_rate": 6.241963505817849e-05,
      "loss": 0.3207,
      "step": 10
    },
    {
      "epoch": 0.016496700659868028,
      "grad_norm": 0.14037740230560303,
      "learning_rate": 6.500335135983298e-05,
      "loss": 0.3435,
      "step": 11
    },
    {
      "epoch": 0.017996400719856028,
      "grad_norm": 0.13980889320373535,
      "learning_rate": 6.736209953992307e-05,
      "loss": 0.3202,
      "step": 12
    },
    {
      "epoch": 0.019496100779844032,
      "grad_norm": 0.11678571254014969,
      "learning_rate": 6.95319375264767e-05,
      "loss": 0.3302,
      "step": 13
    },
    {
      "epoch": 0.020995800839832032,
      "grad_norm": 0.09349111467599869,
      "learning_rate": 7.154089371698258e-05,
      "loss": 0.2915,
      "step": 14
    },
    {
      "epoch": 0.022495500899820036,
      "grad_norm": 0.09897564351558685,
      "learning_rate": 7.341118718536927e-05,
      "loss": 0.2778,
      "step": 15
    },
    {
      "epoch": 0.02399520095980804,
      "grad_norm": 0.10013636201620102,
      "learning_rate": 7.516072988364303e-05,
      "loss": 0.3033,
      "step": 16
    },
    {
      "epoch": 0.02549490101979604,
      "grad_norm": 0.09392625838518143,
      "learning_rate": 7.68041726301612e-05,
      "loss": 0.3052,
      "step": 17
    },
    {
      "epoch": 0.026994601079784044,
      "grad_norm": 0.10019905865192413,
      "learning_rate": 7.835365166711385e-05,
      "loss": 0.3086,
      "step": 18
    },
    {
      "epoch": 0.028494301139772044,
      "grad_norm": 0.08200851827859879,
      "learning_rate": 7.981933310080718e-05,
      "loss": 0.2957,
      "step": 19
    },
    {
      "epoch": 0.029994001199760048,
      "grad_norm": 0.1104549765586853,
      "learning_rate": 8.120981752908924e-05,
      "loss": 0.3041,
      "step": 20
    },
    {
      "epoch": 0.03149370125974805,
      "grad_norm": 0.0900128185749054,
      "learning_rate": 8.253244584417338e-05,
      "loss": 0.293,
      "step": 21
    },
    {
      "epoch": 0.032993401319736056,
      "grad_norm": 0.1028154194355011,
      "learning_rate": 8.379353383074373e-05,
      "loss": 0.2998,
      "step": 22
    },
    {
      "epoch": 0.034493101379724056,
      "grad_norm": 0.088996522128582,
      "learning_rate": 8.499855457278127e-05,
      "loss": 0.2966,
      "step": 23
    },
    {
      "epoch": 0.035992801439712056,
      "grad_norm": 0.11514289677143097,
      "learning_rate": 8.615228201083383e-05,
      "loss": 0.2966,
      "step": 24
    },
    {
      "epoch": 0.03749250149970006,
      "grad_norm": 0.08535772562026978,
      "learning_rate": 8.725890517453545e-05,
      "loss": 0.2871,
      "step": 25
    },
    {
      "epoch": 0.038992201559688064,
      "grad_norm": 0.09490413963794708,
      "learning_rate": 8.832211999738746e-05,
      "loss": 0.2685,
      "step": 26
    },
    {
      "epoch": 0.040491901619676064,
      "grad_norm": 0.08771708607673645,
      "learning_rate": 8.934520379430464e-05,
      "loss": 0.3006,
      "step": 27
    },
    {
      "epoch": 0.041991601679664065,
      "grad_norm": 0.07932153344154358,
      "learning_rate": 9.033107618789334e-05,
      "loss": 0.2593,
      "step": 28
    },
    {
      "epoch": 0.04349130173965207,
      "grad_norm": 0.08406973630189896,
      "learning_rate": 9.128234933866371e-05,
      "loss": 0.2822,
      "step": 29
    },
    {
      "epoch": 0.04499100179964007,
      "grad_norm": 0.11576332151889801,
      "learning_rate": 9.220136965628004e-05,
      "loss": 0.2893,
      "step": 30
    },
    {
      "epoch": 0.04649070185962807,
      "grad_norm": 0.11699442565441132,
      "learning_rate": 9.309025266888221e-05,
      "loss": 0.2907,
      "step": 31
    },
    {
      "epoch": 0.04799040191961608,
      "grad_norm": 0.10306568443775177,
      "learning_rate": 9.395091235455378e-05,
      "loss": 0.2681,
      "step": 32
    },
    {
      "epoch": 0.04949010197960408,
      "grad_norm": 0.13832654058933258,
      "learning_rate": 9.478508595793452e-05,
      "loss": 0.269,
      "step": 33
    },
    {
      "epoch": 0.05098980203959208,
      "grad_norm": 0.10939096659421921,
      "learning_rate": 9.559435510107198e-05,
      "loss": 0.2871,
      "step": 34
    },
    {
      "epoch": 0.05248950209958008,
      "grad_norm": 0.09492199867963791,
      "learning_rate": 9.638016383333955e-05,
      "loss": 0.2546,
      "step": 35
    },
    {
      "epoch": 0.05398920215956809,
      "grad_norm": 0.0966261550784111,
      "learning_rate": 9.71438341380246e-05,
      "loss": 0.2631,
      "step": 36
    },
    {
      "epoch": 0.05548890221955609,
      "grad_norm": 0.0991169810295105,
      "learning_rate": 9.788657931386815e-05,
      "loss": 0.29,
      "step": 37
    },
    {
      "epoch": 0.05698860227954409,
      "grad_norm": 0.0826105922460556,
      "learning_rate": 9.860951557171793e-05,
      "loss": 0.2752,
      "step": 38
    },
    {
      "epoch": 0.058488302339532096,
      "grad_norm": 0.10060229152441025,
      "learning_rate": 9.931367212457823e-05,
      "loss": 0.283,
      "step": 39
    },
    {
      "epoch": 0.059988002399520096,
      "grad_norm": 0.09048207104206085,
      "learning_rate": 9.999999999999999e-05,
      "loss": 0.2727,
      "step": 40
    },
    {
      "epoch": 0.061487702459508096,
      "grad_norm": 0.08834834396839142,
      "learning_rate": 0.0001,
      "loss": 0.2746,
      "step": 41
    },
    {
      "epoch": 0.0629874025194961,
      "grad_norm": 0.16307035088539124,
      "learning_rate": 0.0001,
      "loss": 0.2731,
      "step": 42
    },
    {
      "epoch": 0.0644871025794841,
      "grad_norm": 0.10003547370433807,
      "learning_rate": 0.0001,
      "loss": 0.2502,
      "step": 43
    },
    {
      "epoch": 0.06598680263947211,
      "grad_norm": 0.10564571619033813,
      "learning_rate": 0.0001,
      "loss": 0.2416,
      "step": 44
    },
    {
      "epoch": 0.0674865026994601,
      "grad_norm": 0.10617130249738693,
      "learning_rate": 0.0001,
      "loss": 0.2613,
      "step": 45
    },
    {
      "epoch": 0.06898620275944811,
      "grad_norm": 0.08769086003303528,
      "learning_rate": 0.0001,
      "loss": 0.2635,
      "step": 46
    },
    {
      "epoch": 0.07048590281943612,
      "grad_norm": 0.11212998628616333,
      "learning_rate": 0.0001,
      "loss": 0.2481,
      "step": 47
    },
    {
      "epoch": 0.07198560287942411,
      "grad_norm": 0.1067119836807251,
      "learning_rate": 0.0001,
      "loss": 0.2468,
      "step": 48
    },
    {
      "epoch": 0.07348530293941212,
      "grad_norm": 0.12359505146741867,
      "learning_rate": 0.0001,
      "loss": 0.2813,
      "step": 49
    },
    {
      "epoch": 0.07498500299940011,
      "grad_norm": 0.11689279228448868,
      "learning_rate": 0.0001,
      "loss": 0.2647,
      "step": 50
    },
    {
      "epoch": 0.07648470305938812,
      "grad_norm": 0.11401189118623734,
      "learning_rate": 0.0001,
      "loss": 0.2654,
      "step": 51
    },
    {
      "epoch": 0.07798440311937613,
      "grad_norm": 0.12378329783678055,
      "learning_rate": 0.0001,
      "loss": 0.2478,
      "step": 52
    },
    {
      "epoch": 0.07948410317936412,
      "grad_norm": 0.10506817698478699,
      "learning_rate": 0.0001,
      "loss": 0.2623,
      "step": 53
    },
    {
      "epoch": 0.08098380323935213,
      "grad_norm": 0.11820819973945618,
      "learning_rate": 0.0001,
      "loss": 0.2437,
      "step": 54
    },
    {
      "epoch": 0.08248350329934014,
      "grad_norm": 0.10292626172304153,
      "learning_rate": 0.0001,
      "loss": 0.238,
      "step": 55
    },
    {
      "epoch": 0.08398320335932813,
      "grad_norm": 0.11816567182540894,
      "learning_rate": 0.0001,
      "loss": 0.2575,
      "step": 56
    },
    {
      "epoch": 0.08548290341931614,
      "grad_norm": 0.11205124109983444,
      "learning_rate": 0.0001,
      "loss": 0.2511,
      "step": 57
    },
    {
      "epoch": 0.08698260347930414,
      "grad_norm": 0.1270151287317276,
      "learning_rate": 0.0001,
      "loss": 0.2534,
      "step": 58
    },
    {
      "epoch": 0.08848230353929214,
      "grad_norm": 0.20199592411518097,
      "learning_rate": 0.0001,
      "loss": 0.2725,
      "step": 59
    },
    {
      "epoch": 0.08998200359928014,
      "grad_norm": 0.1342741996049881,
      "learning_rate": 0.0001,
      "loss": 0.2624,
      "step": 60
    },
    {
      "epoch": 0.09148170365926815,
      "grad_norm": 0.09972791373729706,
      "learning_rate": 0.0001,
      "loss": 0.2314,
      "step": 61
    },
    {
      "epoch": 0.09298140371925614,
      "grad_norm": 0.14309673011302948,
      "learning_rate": 0.0001,
      "loss": 0.2582,
      "step": 62
    },
    {
      "epoch": 0.09448110377924415,
      "grad_norm": 0.1232309639453888,
      "learning_rate": 0.0001,
      "loss": 0.2725,
      "step": 63
    },
    {
      "epoch": 0.09598080383923216,
      "grad_norm": 0.17180997133255005,
      "learning_rate": 0.0001,
      "loss": 0.2687,
      "step": 64
    },
    {
      "epoch": 0.09748050389922015,
      "grad_norm": 0.1237153708934784,
      "learning_rate": 0.0001,
      "loss": 0.2481,
      "step": 65
    },
    {
      "epoch": 0.09898020395920816,
      "grad_norm": 0.14547473192214966,
      "learning_rate": 0.0001,
      "loss": 0.2738,
      "step": 66
    },
    {
      "epoch": 0.10047990401919617,
      "grad_norm": 0.1736779808998108,
      "learning_rate": 0.0001,
      "loss": 0.2707,
      "step": 67
    },
    {
      "epoch": 0.10197960407918416,
      "grad_norm": 0.13134180009365082,
      "learning_rate": 0.0001,
      "loss": 0.2618,
      "step": 68
    },
    {
      "epoch": 0.10347930413917217,
      "grad_norm": 0.12101078778505325,
      "learning_rate": 0.0001,
      "loss": 0.2378,
      "step": 69
    },
    {
      "epoch": 0.10497900419916016,
      "grad_norm": 0.12105842679738998,
      "learning_rate": 0.0001,
      "loss": 0.2417,
      "step": 70
    },
    {
      "epoch": 0.10647870425914817,
      "grad_norm": 0.09620116651058197,
      "learning_rate": 0.0001,
      "loss": 0.2427,
      "step": 71
    },
    {
      "epoch": 0.10797840431913618,
      "grad_norm": 0.13074135780334473,
      "learning_rate": 0.0001,
      "loss": 0.2512,
      "step": 72
    },
    {
      "epoch": 0.10947810437912417,
      "grad_norm": 0.11622866988182068,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 73
    },
    {
      "epoch": 0.11097780443911218,
      "grad_norm": 0.13347099721431732,
      "learning_rate": 0.0001,
      "loss": 0.2564,
      "step": 74
    },
    {
      "epoch": 0.11247750449910018,
      "grad_norm": 0.11184396594762802,
      "learning_rate": 0.0001,
      "loss": 0.2514,
      "step": 75
    },
    {
      "epoch": 0.11397720455908818,
      "grad_norm": 0.11676330864429474,
      "learning_rate": 0.0001,
      "loss": 0.2585,
      "step": 76
    },
    {
      "epoch": 0.11547690461907618,
      "grad_norm": 0.12781327962875366,
      "learning_rate": 0.0001,
      "loss": 0.2598,
      "step": 77
    },
    {
      "epoch": 0.11697660467906419,
      "grad_norm": 0.12019386142492294,
      "learning_rate": 0.0001,
      "loss": 0.2447,
      "step": 78
    },
    {
      "epoch": 0.11847630473905219,
      "grad_norm": 0.09622710198163986,
      "learning_rate": 0.0001,
      "loss": 0.2203,
      "step": 79
    },
    {
      "epoch": 0.11997600479904019,
      "grad_norm": 0.09437983483076096,
      "learning_rate": 0.0001,
      "loss": 0.2483,
      "step": 80
    },
    {
      "epoch": 0.1214757048590282,
      "grad_norm": 0.11551544815301895,
      "learning_rate": 0.0001,
      "loss": 0.235,
      "step": 81
    },
    {
      "epoch": 0.12297540491901619,
      "grad_norm": 0.1105952113866806,
      "learning_rate": 0.0001,
      "loss": 0.2176,
      "step": 82
    },
    {
      "epoch": 0.1244751049790042,
      "grad_norm": 0.1200893372297287,
      "learning_rate": 0.0001,
      "loss": 0.2555,
      "step": 83
    },
    {
      "epoch": 0.1259748050389922,
      "grad_norm": 0.12076932936906815,
      "learning_rate": 0.0001,
      "loss": 0.2411,
      "step": 84
    },
    {
      "epoch": 0.1274745050989802,
      "grad_norm": 0.12438690662384033,
      "learning_rate": 0.0001,
      "loss": 0.2325,
      "step": 85
    },
    {
      "epoch": 0.1289742051589682,
      "grad_norm": 0.1478537768125534,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 86
    },
    {
      "epoch": 0.13047390521895622,
      "grad_norm": 0.11384789645671844,
      "learning_rate": 0.0001,
      "loss": 0.2719,
      "step": 87
    },
    {
      "epoch": 0.13197360527894422,
      "grad_norm": 0.11184332519769669,
      "learning_rate": 0.0001,
      "loss": 0.2475,
      "step": 88
    },
    {
      "epoch": 0.1334733053389322,
      "grad_norm": 0.15286798775196075,
      "learning_rate": 0.0001,
      "loss": 0.2413,
      "step": 89
    },
    {
      "epoch": 0.1349730053989202,
      "grad_norm": 0.12072724848985672,
      "learning_rate": 0.0001,
      "loss": 0.2375,
      "step": 90
    },
    {
      "epoch": 0.13647270545890822,
      "grad_norm": 0.10502148419618607,
      "learning_rate": 0.0001,
      "loss": 0.2458,
      "step": 91
    },
    {
      "epoch": 0.13797240551889622,
      "grad_norm": 0.13781367242336273,
      "learning_rate": 0.0001,
      "loss": 0.2374,
      "step": 92
    },
    {
      "epoch": 0.13947210557888423,
      "grad_norm": 0.12438369542360306,
      "learning_rate": 0.0001,
      "loss": 0.2425,
      "step": 93
    },
    {
      "epoch": 0.14097180563887224,
      "grad_norm": 0.14169786870479584,
      "learning_rate": 0.0001,
      "loss": 0.2509,
      "step": 94
    },
    {
      "epoch": 0.14247150569886022,
      "grad_norm": 0.10600782185792923,
      "learning_rate": 0.0001,
      "loss": 0.2696,
      "step": 95
    },
    {
      "epoch": 0.14397120575884823,
      "grad_norm": 0.11966676265001297,
      "learning_rate": 0.0001,
      "loss": 0.2412,
      "step": 96
    },
    {
      "epoch": 0.14547090581883623,
      "grad_norm": 0.10962265729904175,
      "learning_rate": 0.0001,
      "loss": 0.2441,
      "step": 97
    },
    {
      "epoch": 0.14697060587882424,
      "grad_norm": 0.1397043913602829,
      "learning_rate": 0.0001,
      "loss": 0.2496,
      "step": 98
    },
    {
      "epoch": 0.14847030593881225,
      "grad_norm": 0.16136083006858826,
      "learning_rate": 0.0001,
      "loss": 0.2359,
      "step": 99
    },
    {
      "epoch": 0.14997000599880023,
      "grad_norm": 0.15048980712890625,
      "learning_rate": 0.0001,
      "loss": 0.2385,
      "step": 100
    },
    {
      "epoch": 0.15146970605878823,
      "grad_norm": 0.13268543779850006,
      "learning_rate": 0.0001,
      "loss": 0.2691,
      "step": 101
    },
    {
      "epoch": 0.15296940611877624,
      "grad_norm": 0.10873168706893921,
      "learning_rate": 0.0001,
      "loss": 0.2332,
      "step": 102
    },
    {
      "epoch": 0.15446910617876425,
      "grad_norm": 0.11316616088151932,
      "learning_rate": 0.0001,
      "loss": 0.2362,
      "step": 103
    },
    {
      "epoch": 0.15596880623875226,
      "grad_norm": 0.11729507148265839,
      "learning_rate": 0.0001,
      "loss": 0.2448,
      "step": 104
    },
    {
      "epoch": 0.15746850629874026,
      "grad_norm": 0.12228812277317047,
      "learning_rate": 0.0001,
      "loss": 0.2503,
      "step": 105
    },
    {
      "epoch": 0.15896820635872824,
      "grad_norm": 0.1117933914065361,
      "learning_rate": 0.0001,
      "loss": 0.2613,
      "step": 106
    },
    {
      "epoch": 0.16046790641871625,
      "grad_norm": 0.1042381227016449,
      "learning_rate": 0.0001,
      "loss": 0.2217,
      "step": 107
    },
    {
      "epoch": 0.16196760647870426,
      "grad_norm": 0.1123790368437767,
      "learning_rate": 0.0001,
      "loss": 0.2187,
      "step": 108
    },
    {
      "epoch": 0.16346730653869226,
      "grad_norm": 0.14116425812244415,
      "learning_rate": 0.0001,
      "loss": 0.2523,
      "step": 109
    },
    {
      "epoch": 0.16496700659868027,
      "grad_norm": 0.1778893619775772,
      "learning_rate": 0.0001,
      "loss": 0.2406,
      "step": 110
    },
    {
      "epoch": 0.16646670665866828,
      "grad_norm": 0.11053484678268433,
      "learning_rate": 0.0001,
      "loss": 0.2357,
      "step": 111
    },
    {
      "epoch": 0.16796640671865626,
      "grad_norm": 0.12444516271352768,
      "learning_rate": 0.0001,
      "loss": 0.242,
      "step": 112
    },
    {
      "epoch": 0.16946610677864427,
      "grad_norm": 0.12163011729717255,
      "learning_rate": 0.0001,
      "loss": 0.2555,
      "step": 113
    },
    {
      "epoch": 0.17096580683863227,
      "grad_norm": 0.12036201357841492,
      "learning_rate": 0.0001,
      "loss": 0.2261,
      "step": 114
    },
    {
      "epoch": 0.17246550689862028,
      "grad_norm": 0.12016239017248154,
      "learning_rate": 0.0001,
      "loss": 0.2574,
      "step": 115
    },
    {
      "epoch": 0.1739652069586083,
      "grad_norm": 0.13984572887420654,
      "learning_rate": 0.0001,
      "loss": 0.2655,
      "step": 116
    },
    {
      "epoch": 0.1754649070185963,
      "grad_norm": 0.1083282008767128,
      "learning_rate": 0.0001,
      "loss": 0.2278,
      "step": 117
    },
    {
      "epoch": 0.17696460707858427,
      "grad_norm": 0.10733964294195175,
      "learning_rate": 0.0001,
      "loss": 0.2515,
      "step": 118
    },
    {
      "epoch": 0.17846430713857228,
      "grad_norm": 0.17857664823532104,
      "learning_rate": 0.0001,
      "loss": 0.2382,
      "step": 119
    },
    {
      "epoch": 0.1799640071985603,
      "grad_norm": 0.14684706926345825,
      "learning_rate": 0.0001,
      "loss": 0.2644,
      "step": 120
    },
    {
      "epoch": 0.1814637072585483,
      "grad_norm": 0.12434649467468262,
      "learning_rate": 0.0001,
      "loss": 0.2213,
      "step": 121
    },
    {
      "epoch": 0.1829634073185363,
      "grad_norm": 0.1001150980591774,
      "learning_rate": 0.0001,
      "loss": 0.2315,
      "step": 122
    },
    {
      "epoch": 0.18446310737852428,
      "grad_norm": 0.11975020170211792,
      "learning_rate": 0.0001,
      "loss": 0.2437,
      "step": 123
    },
    {
      "epoch": 0.1859628074385123,
      "grad_norm": 0.103910431265831,
      "learning_rate": 0.0001,
      "loss": 0.2162,
      "step": 124
    },
    {
      "epoch": 0.1874625074985003,
      "grad_norm": 0.11913447082042694,
      "learning_rate": 0.0001,
      "loss": 0.2376,
      "step": 125
    },
    {
      "epoch": 0.1889622075584883,
      "grad_norm": 0.12538333237171173,
      "learning_rate": 0.0001,
      "loss": 0.2469,
      "step": 126
    },
    {
      "epoch": 0.1904619076184763,
      "grad_norm": 0.11048039048910141,
      "learning_rate": 0.0001,
      "loss": 0.2567,
      "step": 127
    },
    {
      "epoch": 0.19196160767846432,
      "grad_norm": 0.11008206009864807,
      "learning_rate": 0.0001,
      "loss": 0.2292,
      "step": 128
    },
    {
      "epoch": 0.1934613077384523,
      "grad_norm": 0.1127753034234047,
      "learning_rate": 0.0001,
      "loss": 0.2481,
      "step": 129
    },
    {
      "epoch": 0.1949610077984403,
      "grad_norm": 0.14974431693553925,
      "learning_rate": 0.0001,
      "loss": 0.257,
      "step": 130
    },
    {
      "epoch": 0.1964607078584283,
      "grad_norm": 0.12021481990814209,
      "learning_rate": 0.0001,
      "loss": 0.2388,
      "step": 131
    },
    {
      "epoch": 0.19796040791841632,
      "grad_norm": 0.11107051372528076,
      "learning_rate": 0.0001,
      "loss": 0.2399,
      "step": 132
    },
    {
      "epoch": 0.19946010797840433,
      "grad_norm": 0.12089605629444122,
      "learning_rate": 0.0001,
      "loss": 0.2493,
      "step": 133
    },
    {
      "epoch": 0.20095980803839233,
      "grad_norm": 0.11086536198854446,
      "learning_rate": 0.0001,
      "loss": 0.2294,
      "step": 134
    },
    {
      "epoch": 0.20245950809838031,
      "grad_norm": 0.11700355261564255,
      "learning_rate": 0.0001,
      "loss": 0.2336,
      "step": 135
    },
    {
      "epoch": 0.20395920815836832,
      "grad_norm": 0.10692083090543747,
      "learning_rate": 0.0001,
      "loss": 0.24,
      "step": 136
    },
    {
      "epoch": 0.20545890821835633,
      "grad_norm": 0.11555065214633942,
      "learning_rate": 0.0001,
      "loss": 0.2276,
      "step": 137
    },
    {
      "epoch": 0.20695860827834434,
      "grad_norm": 0.1286138892173767,
      "learning_rate": 0.0001,
      "loss": 0.2241,
      "step": 138
    },
    {
      "epoch": 0.20845830833833234,
      "grad_norm": 0.09839770942926407,
      "learning_rate": 0.0001,
      "loss": 0.2164,
      "step": 139
    },
    {
      "epoch": 0.20995800839832032,
      "grad_norm": 0.12400117516517639,
      "learning_rate": 0.0001,
      "loss": 0.2355,
      "step": 140
    },
    {
      "epoch": 0.21145770845830833,
      "grad_norm": 0.14104394614696503,
      "learning_rate": 0.0001,
      "loss": 0.2501,
      "step": 141
    },
    {
      "epoch": 0.21295740851829634,
      "grad_norm": 0.11606405675411224,
      "learning_rate": 0.0001,
      "loss": 0.2286,
      "step": 142
    },
    {
      "epoch": 0.21445710857828434,
      "grad_norm": 0.12402740120887756,
      "learning_rate": 0.0001,
      "loss": 0.2185,
      "step": 143
    },
    {
      "epoch": 0.21595680863827235,
      "grad_norm": 0.1397617757320404,
      "learning_rate": 0.0001,
      "loss": 0.2207,
      "step": 144
    },
    {
      "epoch": 0.21745650869826036,
      "grad_norm": 0.1119479387998581,
      "learning_rate": 0.0001,
      "loss": 0.2255,
      "step": 145
    },
    {
      "epoch": 0.21895620875824834,
      "grad_norm": 0.13530489802360535,
      "learning_rate": 0.0001,
      "loss": 0.2495,
      "step": 146
    },
    {
      "epoch": 0.22045590881823635,
      "grad_norm": 0.12230700254440308,
      "learning_rate": 0.0001,
      "loss": 0.2234,
      "step": 147
    },
    {
      "epoch": 0.22195560887822435,
      "grad_norm": 0.13471074402332306,
      "learning_rate": 0.0001,
      "loss": 0.2439,
      "step": 148
    },
    {
      "epoch": 0.22345530893821236,
      "grad_norm": 0.1322154849767685,
      "learning_rate": 0.0001,
      "loss": 0.2425,
      "step": 149
    },
    {
      "epoch": 0.22495500899820037,
      "grad_norm": 0.09731844067573547,
      "learning_rate": 0.0001,
      "loss": 0.2198,
      "step": 150
    },
    {
      "epoch": 0.22645470905818837,
      "grad_norm": 0.1405409872531891,
      "learning_rate": 0.0001,
      "loss": 0.223,
      "step": 151
    },
    {
      "epoch": 0.22795440911817635,
      "grad_norm": 0.14558017253875732,
      "learning_rate": 0.0001,
      "loss": 0.2419,
      "step": 152
    },
    {
      "epoch": 0.22945410917816436,
      "grad_norm": 0.132904052734375,
      "learning_rate": 0.0001,
      "loss": 0.2303,
      "step": 153
    },
    {
      "epoch": 0.23095380923815237,
      "grad_norm": 0.1134236603975296,
      "learning_rate": 0.0001,
      "loss": 0.2423,
      "step": 154
    },
    {
      "epoch": 0.23245350929814038,
      "grad_norm": 0.16666455566883087,
      "learning_rate": 0.0001,
      "loss": 0.238,
      "step": 155
    },
    {
      "epoch": 0.23395320935812838,
      "grad_norm": 0.11463788151741028,
      "learning_rate": 0.0001,
      "loss": 0.2398,
      "step": 156
    },
    {
      "epoch": 0.23545290941811636,
      "grad_norm": 0.1440228670835495,
      "learning_rate": 0.0001,
      "loss": 0.225,
      "step": 157
    },
    {
      "epoch": 0.23695260947810437,
      "grad_norm": 0.11209291219711304,
      "learning_rate": 0.0001,
      "loss": 0.246,
      "step": 158
    },
    {
      "epoch": 0.23845230953809238,
      "grad_norm": 0.11540581285953522,
      "learning_rate": 0.0001,
      "loss": 0.2486,
      "step": 159
    },
    {
      "epoch": 0.23995200959808038,
      "grad_norm": 0.12190992385149002,
      "learning_rate": 0.0001,
      "loss": 0.2285,
      "step": 160
    },
    {
      "epoch": 0.2414517096580684,
      "grad_norm": 0.1304340809583664,
      "learning_rate": 0.0001,
      "loss": 0.223,
      "step": 161
    },
    {
      "epoch": 0.2429514097180564,
      "grad_norm": 0.11788660287857056,
      "learning_rate": 0.0001,
      "loss": 0.2305,
      "step": 162
    },
    {
      "epoch": 0.24445110977804438,
      "grad_norm": 0.1305435746908188,
      "learning_rate": 0.0001,
      "loss": 0.235,
      "step": 163
    },
    {
      "epoch": 0.24595080983803239,
      "grad_norm": 0.13996143639087677,
      "learning_rate": 0.0001,
      "loss": 0.2402,
      "step": 164
    },
    {
      "epoch": 0.2474505098980204,
      "grad_norm": 0.14341075718402863,
      "learning_rate": 0.0001,
      "loss": 0.2336,
      "step": 165
    },
    {
      "epoch": 0.2489502099580084,
      "grad_norm": 0.16387344896793365,
      "learning_rate": 0.0001,
      "loss": 0.2458,
      "step": 166
    },
    {
      "epoch": 0.2504499100179964,
      "grad_norm": 0.15125443041324615,
      "learning_rate": 0.0001,
      "loss": 0.2338,
      "step": 167
    },
    {
      "epoch": 0.2519496100779844,
      "grad_norm": 0.1276206523180008,
      "learning_rate": 0.0001,
      "loss": 0.2482,
      "step": 168
    },
    {
      "epoch": 0.2534493101379724,
      "grad_norm": 0.12176503986120224,
      "learning_rate": 0.0001,
      "loss": 0.2283,
      "step": 169
    },
    {
      "epoch": 0.2549490101979604,
      "grad_norm": 0.11466597020626068,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 170
    },
    {
      "epoch": 0.2564487102579484,
      "grad_norm": 0.1163032129406929,
      "learning_rate": 0.0001,
      "loss": 0.2324,
      "step": 171
    },
    {
      "epoch": 0.2579484103179364,
      "grad_norm": 0.12460800260305405,
      "learning_rate": 0.0001,
      "loss": 0.2344,
      "step": 172
    },
    {
      "epoch": 0.2594481103779244,
      "grad_norm": 0.15675124526023865,
      "learning_rate": 0.0001,
      "loss": 0.2447,
      "step": 173
    },
    {
      "epoch": 0.26094781043791243,
      "grad_norm": 0.16592054069042206,
      "learning_rate": 0.0001,
      "loss": 0.26,
      "step": 174
    },
    {
      "epoch": 0.26244751049790044,
      "grad_norm": 0.13792233169078827,
      "learning_rate": 0.0001,
      "loss": 0.2437,
      "step": 175
    },
    {
      "epoch": 0.26394721055788845,
      "grad_norm": 0.12305029481649399,
      "learning_rate": 0.0001,
      "loss": 0.2416,
      "step": 176
    },
    {
      "epoch": 0.2654469106178764,
      "grad_norm": 0.12656596302986145,
      "learning_rate": 0.0001,
      "loss": 0.2325,
      "step": 177
    },
    {
      "epoch": 0.2669466106778644,
      "grad_norm": 0.12669549882411957,
      "learning_rate": 0.0001,
      "loss": 0.2368,
      "step": 178
    },
    {
      "epoch": 0.2684463107378524,
      "grad_norm": 0.0963987484574318,
      "learning_rate": 0.0001,
      "loss": 0.2261,
      "step": 179
    },
    {
      "epoch": 0.2699460107978404,
      "grad_norm": 0.1004108265042305,
      "learning_rate": 0.0001,
      "loss": 0.2152,
      "step": 180
    },
    {
      "epoch": 0.2714457108578284,
      "grad_norm": 0.12881435453891754,
      "learning_rate": 0.0001,
      "loss": 0.2372,
      "step": 181
    },
    {
      "epoch": 0.27294541091781643,
      "grad_norm": 0.14645211398601532,
      "learning_rate": 0.0001,
      "loss": 0.224,
      "step": 182
    },
    {
      "epoch": 0.27444511097780444,
      "grad_norm": 0.1273731291294098,
      "learning_rate": 0.0001,
      "loss": 0.2292,
      "step": 183
    },
    {
      "epoch": 0.27594481103779245,
      "grad_norm": 0.12075914442539215,
      "learning_rate": 0.0001,
      "loss": 0.2429,
      "step": 184
    },
    {
      "epoch": 0.27744451109778046,
      "grad_norm": 0.11052928864955902,
      "learning_rate": 0.0001,
      "loss": 0.2367,
      "step": 185
    },
    {
      "epoch": 0.27894421115776846,
      "grad_norm": 0.09688536822795868,
      "learning_rate": 0.0001,
      "loss": 0.2229,
      "step": 186
    },
    {
      "epoch": 0.28044391121775647,
      "grad_norm": 0.17519515752792358,
      "learning_rate": 0.0001,
      "loss": 0.2479,
      "step": 187
    },
    {
      "epoch": 0.2819436112777445,
      "grad_norm": 0.11386863887310028,
      "learning_rate": 0.0001,
      "loss": 0.2392,
      "step": 188
    },
    {
      "epoch": 0.28344331133773243,
      "grad_norm": 0.1105920597910881,
      "learning_rate": 0.0001,
      "loss": 0.23,
      "step": 189
    },
    {
      "epoch": 0.28494301139772044,
      "grad_norm": 0.08600872755050659,
      "learning_rate": 0.0001,
      "loss": 0.2113,
      "step": 190
    },
    {
      "epoch": 0.28644271145770844,
      "grad_norm": 0.11649250239133835,
      "learning_rate": 0.0001,
      "loss": 0.258,
      "step": 191
    },
    {
      "epoch": 0.28794241151769645,
      "grad_norm": 0.11537264287471771,
      "learning_rate": 0.0001,
      "loss": 0.2157,
      "step": 192
    },
    {
      "epoch": 0.28944211157768446,
      "grad_norm": 0.1155102327466011,
      "learning_rate": 0.0001,
      "loss": 0.2206,
      "step": 193
    },
    {
      "epoch": 0.29094181163767247,
      "grad_norm": 0.14818812906742096,
      "learning_rate": 0.0001,
      "loss": 0.2315,
      "step": 194
    },
    {
      "epoch": 0.2924415116976605,
      "grad_norm": 0.08846630156040192,
      "learning_rate": 0.0001,
      "loss": 0.2011,
      "step": 195
    },
    {
      "epoch": 0.2939412117576485,
      "grad_norm": 0.10643104463815689,
      "learning_rate": 0.0001,
      "loss": 0.2437,
      "step": 196
    },
    {
      "epoch": 0.2954409118176365,
      "grad_norm": 0.1346314698457718,
      "learning_rate": 0.0001,
      "loss": 0.2242,
      "step": 197
    },
    {
      "epoch": 0.2969406118776245,
      "grad_norm": 0.12103690952062607,
      "learning_rate": 0.0001,
      "loss": 0.2271,
      "step": 198
    },
    {
      "epoch": 0.2984403119376125,
      "grad_norm": 0.13514672219753265,
      "learning_rate": 0.0001,
      "loss": 0.2176,
      "step": 199
    },
    {
      "epoch": 0.29994001199760045,
      "grad_norm": 0.13170231878757477,
      "learning_rate": 0.0001,
      "loss": 0.2212,
      "step": 200
    },
    {
      "epoch": 0.30143971205758846,
      "grad_norm": 0.16364286839962006,
      "learning_rate": 0.0001,
      "loss": 0.2407,
      "step": 201
    },
    {
      "epoch": 0.30293941211757647,
      "grad_norm": 0.12259352207183838,
      "learning_rate": 0.0001,
      "loss": 0.2089,
      "step": 202
    },
    {
      "epoch": 0.3044391121775645,
      "grad_norm": 0.16228505969047546,
      "learning_rate": 0.0001,
      "loss": 0.2317,
      "step": 203
    },
    {
      "epoch": 0.3059388122375525,
      "grad_norm": 0.11833438277244568,
      "learning_rate": 0.0001,
      "loss": 0.2316,
      "step": 204
    },
    {
      "epoch": 0.3074385122975405,
      "grad_norm": 0.09581371396780014,
      "learning_rate": 0.0001,
      "loss": 0.216,
      "step": 205
    },
    {
      "epoch": 0.3089382123575285,
      "grad_norm": 0.12603557109832764,
      "learning_rate": 0.0001,
      "loss": 0.2362,
      "step": 206
    },
    {
      "epoch": 0.3104379124175165,
      "grad_norm": 0.1061558872461319,
      "learning_rate": 0.0001,
      "loss": 0.2166,
      "step": 207
    },
    {
      "epoch": 0.3119376124775045,
      "grad_norm": 0.11341404169797897,
      "learning_rate": 0.0001,
      "loss": 0.2205,
      "step": 208
    },
    {
      "epoch": 0.3134373125374925,
      "grad_norm": 0.09826784580945969,
      "learning_rate": 0.0001,
      "loss": 0.2002,
      "step": 209
    },
    {
      "epoch": 0.3149370125974805,
      "grad_norm": 0.12297894805669785,
      "learning_rate": 0.0001,
      "loss": 0.2275,
      "step": 210
    },
    {
      "epoch": 0.31643671265746853,
      "grad_norm": 0.10731662809848785,
      "learning_rate": 0.0001,
      "loss": 0.2322,
      "step": 211
    },
    {
      "epoch": 0.3179364127174565,
      "grad_norm": 0.1307832896709442,
      "learning_rate": 0.0001,
      "loss": 0.2316,
      "step": 212
    },
    {
      "epoch": 0.3194361127774445,
      "grad_norm": 0.11497294902801514,
      "learning_rate": 0.0001,
      "loss": 0.2156,
      "step": 213
    },
    {
      "epoch": 0.3209358128374325,
      "grad_norm": 0.11641246825456619,
      "learning_rate": 0.0001,
      "loss": 0.2351,
      "step": 214
    },
    {
      "epoch": 0.3224355128974205,
      "grad_norm": 0.11445032060146332,
      "learning_rate": 0.0001,
      "loss": 0.247,
      "step": 215
    },
    {
      "epoch": 0.3239352129574085,
      "grad_norm": 0.10140793025493622,
      "learning_rate": 0.0001,
      "loss": 0.2303,
      "step": 216
    },
    {
      "epoch": 0.3254349130173965,
      "grad_norm": 0.126343235373497,
      "learning_rate": 0.0001,
      "loss": 0.2262,
      "step": 217
    },
    {
      "epoch": 0.32693461307738453,
      "grad_norm": 0.09056028723716736,
      "learning_rate": 0.0001,
      "loss": 0.189,
      "step": 218
    },
    {
      "epoch": 0.32843431313737254,
      "grad_norm": 0.17100097239017487,
      "learning_rate": 0.0001,
      "loss": 0.22,
      "step": 219
    },
    {
      "epoch": 0.32993401319736054,
      "grad_norm": 0.15125828981399536,
      "learning_rate": 0.0001,
      "loss": 0.2322,
      "step": 220
    },
    {
      "epoch": 0.33143371325734855,
      "grad_norm": 0.10870727896690369,
      "learning_rate": 0.0001,
      "loss": 0.2171,
      "step": 221
    },
    {
      "epoch": 0.33293341331733656,
      "grad_norm": 0.16351692378520966,
      "learning_rate": 0.0001,
      "loss": 0.2389,
      "step": 222
    },
    {
      "epoch": 0.3344331133773245,
      "grad_norm": 0.1347367763519287,
      "learning_rate": 0.0001,
      "loss": 0.2364,
      "step": 223
    },
    {
      "epoch": 0.3359328134373125,
      "grad_norm": 0.11815625429153442,
      "learning_rate": 0.0001,
      "loss": 0.2059,
      "step": 224
    },
    {
      "epoch": 0.3374325134973005,
      "grad_norm": 0.1154579222202301,
      "learning_rate": 0.0001,
      "loss": 0.2237,
      "step": 225
    },
    {
      "epoch": 0.33893221355728853,
      "grad_norm": 0.10338035970926285,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 226
    },
    {
      "epoch": 0.34043191361727654,
      "grad_norm": 0.13959862291812897,
      "learning_rate": 0.0001,
      "loss": 0.2305,
      "step": 227
    },
    {
      "epoch": 0.34193161367726455,
      "grad_norm": 0.11692982167005539,
      "learning_rate": 0.0001,
      "loss": 0.2502,
      "step": 228
    },
    {
      "epoch": 0.34343131373725255,
      "grad_norm": 0.11419547349214554,
      "learning_rate": 0.0001,
      "loss": 0.2128,
      "step": 229
    },
    {
      "epoch": 0.34493101379724056,
      "grad_norm": 0.12155552208423615,
      "learning_rate": 0.0001,
      "loss": 0.2294,
      "step": 230
    },
    {
      "epoch": 0.34643071385722857,
      "grad_norm": 0.11073248833417892,
      "learning_rate": 0.0001,
      "loss": 0.2133,
      "step": 231
    },
    {
      "epoch": 0.3479304139172166,
      "grad_norm": 0.09990482777357101,
      "learning_rate": 0.0001,
      "loss": 0.229,
      "step": 232
    },
    {
      "epoch": 0.3494301139772046,
      "grad_norm": 0.12616117298603058,
      "learning_rate": 0.0001,
      "loss": 0.2195,
      "step": 233
    },
    {
      "epoch": 0.3509298140371926,
      "grad_norm": 0.12141269445419312,
      "learning_rate": 0.0001,
      "loss": 0.2306,
      "step": 234
    },
    {
      "epoch": 0.35242951409718054,
      "grad_norm": 0.2511480152606964,
      "learning_rate": 0.0001,
      "loss": 0.2219,
      "step": 235
    },
    {
      "epoch": 0.35392921415716855,
      "grad_norm": 0.12744319438934326,
      "learning_rate": 0.0001,
      "loss": 0.2299,
      "step": 236
    },
    {
      "epoch": 0.35542891421715656,
      "grad_norm": 0.13565358519554138,
      "learning_rate": 0.0001,
      "loss": 0.2181,
      "step": 237
    },
    {
      "epoch": 0.35692861427714456,
      "grad_norm": 0.11797461658716202,
      "learning_rate": 0.0001,
      "loss": 0.2143,
      "step": 238
    },
    {
      "epoch": 0.35842831433713257,
      "grad_norm": 0.10429585725069046,
      "learning_rate": 0.0001,
      "loss": 0.2291,
      "step": 239
    },
    {
      "epoch": 0.3599280143971206,
      "grad_norm": 0.1058630496263504,
      "learning_rate": 0.0001,
      "loss": 0.2283,
      "step": 240
    },
    {
      "epoch": 0.3614277144571086,
      "grad_norm": 0.09743008762598038,
      "learning_rate": 0.0001,
      "loss": 0.2401,
      "step": 241
    },
    {
      "epoch": 0.3629274145170966,
      "grad_norm": 0.10452770441770554,
      "learning_rate": 0.0001,
      "loss": 0.2308,
      "step": 242
    },
    {
      "epoch": 0.3644271145770846,
      "grad_norm": 0.1388055980205536,
      "learning_rate": 0.0001,
      "loss": 0.2379,
      "step": 243
    },
    {
      "epoch": 0.3659268146370726,
      "grad_norm": 0.11366186290979385,
      "learning_rate": 0.0001,
      "loss": 0.243,
      "step": 244
    },
    {
      "epoch": 0.3674265146970606,
      "grad_norm": 0.1114300936460495,
      "learning_rate": 0.0001,
      "loss": 0.2166,
      "step": 245
    },
    {
      "epoch": 0.36892621475704857,
      "grad_norm": 0.09451676905155182,
      "learning_rate": 0.0001,
      "loss": 0.2296,
      "step": 246
    },
    {
      "epoch": 0.3704259148170366,
      "grad_norm": 0.10040578991174698,
      "learning_rate": 0.0001,
      "loss": 0.2132,
      "step": 247
    },
    {
      "epoch": 0.3719256148770246,
      "grad_norm": 0.1336059421300888,
      "learning_rate": 0.0001,
      "loss": 0.2368,
      "step": 248
    },
    {
      "epoch": 0.3734253149370126,
      "grad_norm": 0.1402183622121811,
      "learning_rate": 0.0001,
      "loss": 0.2314,
      "step": 249
    },
    {
      "epoch": 0.3749250149970006,
      "grad_norm": 0.10238360613584518,
      "learning_rate": 0.0001,
      "loss": 0.2097,
      "step": 250
    },
    {
      "epoch": 0.3764247150569886,
      "grad_norm": 0.11468930542469025,
      "learning_rate": 0.0001,
      "loss": 0.211,
      "step": 251
    },
    {
      "epoch": 0.3779244151169766,
      "grad_norm": 0.10573303699493408,
      "learning_rate": 0.0001,
      "loss": 0.2377,
      "step": 252
    },
    {
      "epoch": 0.3794241151769646,
      "grad_norm": 0.11058829724788666,
      "learning_rate": 0.0001,
      "loss": 0.2377,
      "step": 253
    },
    {
      "epoch": 0.3809238152369526,
      "grad_norm": 0.1203845664858818,
      "learning_rate": 0.0001,
      "loss": 0.235,
      "step": 254
    },
    {
      "epoch": 0.38242351529694063,
      "grad_norm": 0.104719378054142,
      "learning_rate": 0.0001,
      "loss": 0.2392,
      "step": 255
    },
    {
      "epoch": 0.38392321535692864,
      "grad_norm": 0.12004471570253372,
      "learning_rate": 0.0001,
      "loss": 0.2366,
      "step": 256
    },
    {
      "epoch": 0.3854229154169166,
      "grad_norm": 0.11353117972612381,
      "learning_rate": 0.0001,
      "loss": 0.2216,
      "step": 257
    },
    {
      "epoch": 0.3869226154769046,
      "grad_norm": 0.15059833228588104,
      "learning_rate": 0.0001,
      "loss": 0.2191,
      "step": 258
    },
    {
      "epoch": 0.3884223155368926,
      "grad_norm": 0.08794044703245163,
      "learning_rate": 0.0001,
      "loss": 0.2266,
      "step": 259
    },
    {
      "epoch": 0.3899220155968806,
      "grad_norm": 0.10149549692869186,
      "learning_rate": 0.0001,
      "loss": 0.2221,
      "step": 260
    },
    {
      "epoch": 0.3914217156568686,
      "grad_norm": 0.10320043563842773,
      "learning_rate": 0.0001,
      "loss": 0.2053,
      "step": 261
    },
    {
      "epoch": 0.3929214157168566,
      "grad_norm": 0.11547361314296722,
      "learning_rate": 0.0001,
      "loss": 0.2183,
      "step": 262
    },
    {
      "epoch": 0.39442111577684463,
      "grad_norm": 0.12283506244421005,
      "learning_rate": 0.0001,
      "loss": 0.2348,
      "step": 263
    },
    {
      "epoch": 0.39592081583683264,
      "grad_norm": 0.09544312953948975,
      "learning_rate": 0.0001,
      "loss": 0.218,
      "step": 264
    },
    {
      "epoch": 0.39742051589682065,
      "grad_norm": 0.10765321552753448,
      "learning_rate": 0.0001,
      "loss": 0.2179,
      "step": 265
    },
    {
      "epoch": 0.39892021595680865,
      "grad_norm": 0.10758877545595169,
      "learning_rate": 0.0001,
      "loss": 0.228,
      "step": 266
    },
    {
      "epoch": 0.40041991601679666,
      "grad_norm": 0.09876520931720734,
      "learning_rate": 0.0001,
      "loss": 0.2235,
      "step": 267
    },
    {
      "epoch": 0.40191961607678467,
      "grad_norm": 0.1275842785835266,
      "learning_rate": 0.0001,
      "loss": 0.2168,
      "step": 268
    },
    {
      "epoch": 0.4034193161367726,
      "grad_norm": 0.09709596633911133,
      "learning_rate": 0.0001,
      "loss": 0.2136,
      "step": 269
    },
    {
      "epoch": 0.40491901619676063,
      "grad_norm": 0.11813202500343323,
      "learning_rate": 0.0001,
      "loss": 0.2353,
      "step": 270
    },
    {
      "epoch": 0.40641871625674864,
      "grad_norm": 0.11203638464212418,
      "learning_rate": 0.0001,
      "loss": 0.198,
      "step": 271
    },
    {
      "epoch": 0.40791841631673664,
      "grad_norm": 0.10276957601308823,
      "learning_rate": 0.0001,
      "loss": 0.223,
      "step": 272
    },
    {
      "epoch": 0.40941811637672465,
      "grad_norm": 0.10870296508073807,
      "learning_rate": 0.0001,
      "loss": 0.2358,
      "step": 273
    },
    {
      "epoch": 0.41091781643671266,
      "grad_norm": 0.12690843641757965,
      "learning_rate": 0.0001,
      "loss": 0.241,
      "step": 274
    },
    {
      "epoch": 0.41241751649670066,
      "grad_norm": 0.09744931012392044,
      "learning_rate": 0.0001,
      "loss": 0.237,
      "step": 275
    },
    {
      "epoch": 0.41391721655668867,
      "grad_norm": 0.11396773159503937,
      "learning_rate": 0.0001,
      "loss": 0.2423,
      "step": 276
    },
    {
      "epoch": 0.4154169166166767,
      "grad_norm": 0.09604117274284363,
      "learning_rate": 0.0001,
      "loss": 0.2261,
      "step": 277
    },
    {
      "epoch": 0.4169166166766647,
      "grad_norm": 0.12163858115673065,
      "learning_rate": 0.0001,
      "loss": 0.202,
      "step": 278
    },
    {
      "epoch": 0.4184163167366527,
      "grad_norm": 0.10563904047012329,
      "learning_rate": 0.0001,
      "loss": 0.2362,
      "step": 279
    },
    {
      "epoch": 0.41991601679664065,
      "grad_norm": 0.11310145258903503,
      "learning_rate": 0.0001,
      "loss": 0.229,
      "step": 280
    },
    {
      "epoch": 0.42141571685662865,
      "grad_norm": 0.10997454077005386,
      "learning_rate": 0.0001,
      "loss": 0.2188,
      "step": 281
    },
    {
      "epoch": 0.42291541691661666,
      "grad_norm": 0.10907412320375443,
      "learning_rate": 0.0001,
      "loss": 0.225,
      "step": 282
    },
    {
      "epoch": 0.42441511697660467,
      "grad_norm": 0.11454860121011734,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 283
    },
    {
      "epoch": 0.4259148170365927,
      "grad_norm": 0.1365349143743515,
      "learning_rate": 0.0001,
      "loss": 0.2293,
      "step": 284
    },
    {
      "epoch": 0.4274145170965807,
      "grad_norm": 0.11197719722986221,
      "learning_rate": 0.0001,
      "loss": 0.2168,
      "step": 285
    },
    {
      "epoch": 0.4289142171565687,
      "grad_norm": 0.1684017777442932,
      "learning_rate": 0.0001,
      "loss": 0.2183,
      "step": 286
    },
    {
      "epoch": 0.4304139172165567,
      "grad_norm": 0.0970098227262497,
      "learning_rate": 0.0001,
      "loss": 0.2066,
      "step": 287
    },
    {
      "epoch": 0.4319136172765447,
      "grad_norm": 0.10921519249677658,
      "learning_rate": 0.0001,
      "loss": 0.2304,
      "step": 288
    },
    {
      "epoch": 0.4334133173365327,
      "grad_norm": 0.0997779592871666,
      "learning_rate": 0.0001,
      "loss": 0.2193,
      "step": 289
    },
    {
      "epoch": 0.4349130173965207,
      "grad_norm": 0.10637655109167099,
      "learning_rate": 0.0001,
      "loss": 0.2175,
      "step": 290
    },
    {
      "epoch": 0.4364127174565087,
      "grad_norm": 0.0935719683766365,
      "learning_rate": 0.0001,
      "loss": 0.2318,
      "step": 291
    },
    {
      "epoch": 0.4379124175164967,
      "grad_norm": 0.10827167332172394,
      "learning_rate": 0.0001,
      "loss": 0.2325,
      "step": 292
    },
    {
      "epoch": 0.4394121175764847,
      "grad_norm": 0.11954709887504578,
      "learning_rate": 0.0001,
      "loss": 0.2369,
      "step": 293
    },
    {
      "epoch": 0.4409118176364727,
      "grad_norm": 0.09979569911956787,
      "learning_rate": 0.0001,
      "loss": 0.2216,
      "step": 294
    },
    {
      "epoch": 0.4424115176964607,
      "grad_norm": 0.09549412131309509,
      "learning_rate": 0.0001,
      "loss": 0.226,
      "step": 295
    },
    {
      "epoch": 0.4439112177564487,
      "grad_norm": 0.09822157025337219,
      "learning_rate": 0.0001,
      "loss": 0.2098,
      "step": 296
    },
    {
      "epoch": 0.4454109178164367,
      "grad_norm": 0.10795240849256516,
      "learning_rate": 0.0001,
      "loss": 0.2141,
      "step": 297
    },
    {
      "epoch": 0.4469106178764247,
      "grad_norm": 0.10793367773294449,
      "learning_rate": 0.0001,
      "loss": 0.2221,
      "step": 298
    },
    {
      "epoch": 0.44841031793641273,
      "grad_norm": 0.1256856918334961,
      "learning_rate": 0.0001,
      "loss": 0.2287,
      "step": 299
    },
    {
      "epoch": 0.44991001799640074,
      "grad_norm": 0.12036577612161636,
      "learning_rate": 0.0001,
      "loss": 0.2257,
      "step": 300
    },
    {
      "epoch": 0.45140971805638874,
      "grad_norm": 0.11556180566549301,
      "learning_rate": 0.0001,
      "loss": 0.216,
      "step": 301
    },
    {
      "epoch": 0.45290941811637675,
      "grad_norm": 0.11460383236408234,
      "learning_rate": 0.0001,
      "loss": 0.2203,
      "step": 302
    },
    {
      "epoch": 0.4544091181763647,
      "grad_norm": 0.1124996766448021,
      "learning_rate": 0.0001,
      "loss": 0.2093,
      "step": 303
    },
    {
      "epoch": 0.4559088182363527,
      "grad_norm": 0.14474564790725708,
      "learning_rate": 0.0001,
      "loss": 0.208,
      "step": 304
    },
    {
      "epoch": 0.4574085182963407,
      "grad_norm": 0.13955076038837433,
      "learning_rate": 0.0001,
      "loss": 0.2297,
      "step": 305
    },
    {
      "epoch": 0.4589082183563287,
      "grad_norm": 0.14686836302280426,
      "learning_rate": 0.0001,
      "loss": 0.238,
      "step": 306
    },
    {
      "epoch": 0.46040791841631673,
      "grad_norm": 0.14855240285396576,
      "learning_rate": 0.0001,
      "loss": 0.2324,
      "step": 307
    },
    {
      "epoch": 0.46190761847630474,
      "grad_norm": 0.12516184151172638,
      "learning_rate": 0.0001,
      "loss": 0.2184,
      "step": 308
    },
    {
      "epoch": 0.46340731853629274,
      "grad_norm": 0.09646672755479813,
      "learning_rate": 0.0001,
      "loss": 0.2155,
      "step": 309
    },
    {
      "epoch": 0.46490701859628075,
      "grad_norm": 0.12886372208595276,
      "learning_rate": 0.0001,
      "loss": 0.1959,
      "step": 310
    },
    {
      "epoch": 0.46640671865626876,
      "grad_norm": 0.12573841214179993,
      "learning_rate": 0.0001,
      "loss": 0.212,
      "step": 311
    },
    {
      "epoch": 0.46790641871625677,
      "grad_norm": 0.11069092899560928,
      "learning_rate": 0.0001,
      "loss": 0.2282,
      "step": 312
    },
    {
      "epoch": 0.4694061187762448,
      "grad_norm": 0.10337776690721512,
      "learning_rate": 0.0001,
      "loss": 0.2276,
      "step": 313
    },
    {
      "epoch": 0.4709058188362327,
      "grad_norm": 0.10028043389320374,
      "learning_rate": 0.0001,
      "loss": 0.2124,
      "step": 314
    },
    {
      "epoch": 0.47240551889622073,
      "grad_norm": 0.08938273042440414,
      "learning_rate": 0.0001,
      "loss": 0.2043,
      "step": 315
    },
    {
      "epoch": 0.47390521895620874,
      "grad_norm": 0.11101379245519638,
      "learning_rate": 0.0001,
      "loss": 0.2219,
      "step": 316
    },
    {
      "epoch": 0.47540491901619675,
      "grad_norm": 0.12760856747627258,
      "learning_rate": 0.0001,
      "loss": 0.1974,
      "step": 317
    },
    {
      "epoch": 0.47690461907618475,
      "grad_norm": 0.10783978551626205,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 318
    },
    {
      "epoch": 0.47840431913617276,
      "grad_norm": 0.11469072848558426,
      "learning_rate": 0.0001,
      "loss": 0.2026,
      "step": 319
    },
    {
      "epoch": 0.47990401919616077,
      "grad_norm": 0.091346375644207,
      "learning_rate": 0.0001,
      "loss": 0.2056,
      "step": 320
    },
    {
      "epoch": 0.4814037192561488,
      "grad_norm": 0.08783815056085587,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 321
    },
    {
      "epoch": 0.4829034193161368,
      "grad_norm": 0.10270360857248306,
      "learning_rate": 0.0001,
      "loss": 0.2455,
      "step": 322
    },
    {
      "epoch": 0.4844031193761248,
      "grad_norm": 0.10721300542354584,
      "learning_rate": 0.0001,
      "loss": 0.2208,
      "step": 323
    },
    {
      "epoch": 0.4859028194361128,
      "grad_norm": 0.11798007041215897,
      "learning_rate": 0.0001,
      "loss": 0.2264,
      "step": 324
    },
    {
      "epoch": 0.4874025194961008,
      "grad_norm": 0.08901804685592651,
      "learning_rate": 0.0001,
      "loss": 0.211,
      "step": 325
    },
    {
      "epoch": 0.48890221955608876,
      "grad_norm": 0.09794425219297409,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 326
    },
    {
      "epoch": 0.49040191961607676,
      "grad_norm": 0.10455400496721268,
      "learning_rate": 0.0001,
      "loss": 0.2041,
      "step": 327
    },
    {
      "epoch": 0.49190161967606477,
      "grad_norm": 0.10693378001451492,
      "learning_rate": 0.0001,
      "loss": 0.2183,
      "step": 328
    },
    {
      "epoch": 0.4934013197360528,
      "grad_norm": 0.09617944061756134,
      "learning_rate": 0.0001,
      "loss": 0.2102,
      "step": 329
    },
    {
      "epoch": 0.4949010197960408,
      "grad_norm": 0.0969955250620842,
      "learning_rate": 0.0001,
      "loss": 0.2233,
      "step": 330
    },
    {
      "epoch": 0.4964007198560288,
      "grad_norm": 0.10927776992321014,
      "learning_rate": 0.0001,
      "loss": 0.2293,
      "step": 331
    },
    {
      "epoch": 0.4979004199160168,
      "grad_norm": 0.2279406487941742,
      "learning_rate": 0.0001,
      "loss": 0.233,
      "step": 332
    },
    {
      "epoch": 0.4994001199760048,
      "grad_norm": 0.12464028596878052,
      "learning_rate": 0.0001,
      "loss": 0.2089,
      "step": 333
    },
    {
      "epoch": 0.5008998200359928,
      "grad_norm": 0.11980585753917694,
      "learning_rate": 0.0001,
      "loss": 0.2391,
      "step": 334
    },
    {
      "epoch": 0.5023995200959808,
      "grad_norm": 0.14356419444084167,
      "learning_rate": 0.0001,
      "loss": 0.2289,
      "step": 335
    },
    {
      "epoch": 0.5038992201559688,
      "grad_norm": 0.12879866361618042,
      "learning_rate": 0.0001,
      "loss": 0.2309,
      "step": 336
    },
    {
      "epoch": 0.5053989202159568,
      "grad_norm": 0.09294889122247696,
      "learning_rate": 0.0001,
      "loss": 0.2119,
      "step": 337
    },
    {
      "epoch": 0.5068986202759448,
      "grad_norm": 0.14954331517219543,
      "learning_rate": 0.0001,
      "loss": 0.2292,
      "step": 338
    },
    {
      "epoch": 0.5083983203359328,
      "grad_norm": 0.20549990236759186,
      "learning_rate": 0.0001,
      "loss": 0.2136,
      "step": 339
    },
    {
      "epoch": 0.5098980203959208,
      "grad_norm": 0.09725086390972137,
      "learning_rate": 0.0001,
      "loss": 0.2179,
      "step": 340
    },
    {
      "epoch": 0.5113977204559088,
      "grad_norm": 0.10862495005130768,
      "learning_rate": 0.0001,
      "loss": 0.2229,
      "step": 341
    },
    {
      "epoch": 0.5128974205158968,
      "grad_norm": 0.10174456983804703,
      "learning_rate": 0.0001,
      "loss": 0.2207,
      "step": 342
    },
    {
      "epoch": 0.5143971205758848,
      "grad_norm": 0.10183627158403397,
      "learning_rate": 0.0001,
      "loss": 0.2139,
      "step": 343
    },
    {
      "epoch": 0.5158968206358728,
      "grad_norm": 0.1012234315276146,
      "learning_rate": 0.0001,
      "loss": 0.2222,
      "step": 344
    },
    {
      "epoch": 0.5173965206958608,
      "grad_norm": 0.07654695957899094,
      "learning_rate": 0.0001,
      "loss": 0.209,
      "step": 345
    },
    {
      "epoch": 0.5188962207558488,
      "grad_norm": 0.09825517982244492,
      "learning_rate": 0.0001,
      "loss": 0.2226,
      "step": 346
    },
    {
      "epoch": 0.5203959208158369,
      "grad_norm": 0.09651530534029007,
      "learning_rate": 0.0001,
      "loss": 0.225,
      "step": 347
    },
    {
      "epoch": 0.5218956208758249,
      "grad_norm": 0.1016431599855423,
      "learning_rate": 0.0001,
      "loss": 0.2329,
      "step": 348
    },
    {
      "epoch": 0.5233953209358129,
      "grad_norm": 0.11610297858715057,
      "learning_rate": 0.0001,
      "loss": 0.228,
      "step": 349
    },
    {
      "epoch": 0.5248950209958009,
      "grad_norm": 0.1121797189116478,
      "learning_rate": 0.0001,
      "loss": 0.2295,
      "step": 350
    },
    {
      "epoch": 0.5263947210557889,
      "grad_norm": 0.10861291736364365,
      "learning_rate": 0.0001,
      "loss": 0.2337,
      "step": 351
    },
    {
      "epoch": 0.5278944211157769,
      "grad_norm": 0.12523870170116425,
      "learning_rate": 0.0001,
      "loss": 0.2268,
      "step": 352
    },
    {
      "epoch": 0.5293941211757649,
      "grad_norm": 0.1045108512043953,
      "learning_rate": 0.0001,
      "loss": 0.2194,
      "step": 353
    },
    {
      "epoch": 0.5308938212357528,
      "grad_norm": 0.11559593677520752,
      "learning_rate": 0.0001,
      "loss": 0.218,
      "step": 354
    },
    {
      "epoch": 0.5323935212957408,
      "grad_norm": 0.11891409009695053,
      "learning_rate": 0.0001,
      "loss": 0.2122,
      "step": 355
    },
    {
      "epoch": 0.5338932213557288,
      "grad_norm": 0.10015781968832016,
      "learning_rate": 0.0001,
      "loss": 0.2094,
      "step": 356
    },
    {
      "epoch": 0.5353929214157168,
      "grad_norm": 0.10982546955347061,
      "learning_rate": 0.0001,
      "loss": 0.2209,
      "step": 357
    },
    {
      "epoch": 0.5368926214757048,
      "grad_norm": 0.11095356196165085,
      "learning_rate": 0.0001,
      "loss": 0.2449,
      "step": 358
    },
    {
      "epoch": 0.5383923215356928,
      "grad_norm": 0.10668202489614487,
      "learning_rate": 0.0001,
      "loss": 0.2137,
      "step": 359
    },
    {
      "epoch": 0.5398920215956808,
      "grad_norm": 0.11635058373212814,
      "learning_rate": 0.0001,
      "loss": 0.2129,
      "step": 360
    },
    {
      "epoch": 0.5413917216556688,
      "grad_norm": 0.09161025285720825,
      "learning_rate": 0.0001,
      "loss": 0.2033,
      "step": 361
    },
    {
      "epoch": 0.5428914217156569,
      "grad_norm": 0.09561275690793991,
      "learning_rate": 0.0001,
      "loss": 0.2079,
      "step": 362
    },
    {
      "epoch": 0.5443911217756449,
      "grad_norm": 0.12359080463647842,
      "learning_rate": 0.0001,
      "loss": 0.233,
      "step": 363
    },
    {
      "epoch": 0.5458908218356329,
      "grad_norm": 0.1100434809923172,
      "learning_rate": 0.0001,
      "loss": 0.2253,
      "step": 364
    },
    {
      "epoch": 0.5473905218956209,
      "grad_norm": 0.09415411204099655,
      "learning_rate": 0.0001,
      "loss": 0.2309,
      "step": 365
    },
    {
      "epoch": 0.5488902219556089,
      "grad_norm": 0.12717139720916748,
      "learning_rate": 0.0001,
      "loss": 0.2167,
      "step": 366
    },
    {
      "epoch": 0.5503899220155969,
      "grad_norm": 0.12492182850837708,
      "learning_rate": 0.0001,
      "loss": 0.2237,
      "step": 367
    },
    {
      "epoch": 0.5518896220755849,
      "grad_norm": 0.12692883610725403,
      "learning_rate": 0.0001,
      "loss": 0.2357,
      "step": 368
    },
    {
      "epoch": 0.5533893221355729,
      "grad_norm": 0.12766599655151367,
      "learning_rate": 0.0001,
      "loss": 0.2317,
      "step": 369
    },
    {
      "epoch": 0.5548890221955609,
      "grad_norm": 0.09995708614587784,
      "learning_rate": 0.0001,
      "loss": 0.2154,
      "step": 370
    },
    {
      "epoch": 0.5563887222555489,
      "grad_norm": 0.11044944077730179,
      "learning_rate": 0.0001,
      "loss": 0.2181,
      "step": 371
    },
    {
      "epoch": 0.5578884223155369,
      "grad_norm": 0.11453700065612793,
      "learning_rate": 0.0001,
      "loss": 0.1992,
      "step": 372
    },
    {
      "epoch": 0.5593881223755249,
      "grad_norm": 0.1036209762096405,
      "learning_rate": 0.0001,
      "loss": 0.2056,
      "step": 373
    },
    {
      "epoch": 0.5608878224355129,
      "grad_norm": 0.1169288232922554,
      "learning_rate": 0.0001,
      "loss": 0.227,
      "step": 374
    },
    {
      "epoch": 0.562387522495501,
      "grad_norm": 0.11839981377124786,
      "learning_rate": 0.0001,
      "loss": 0.2368,
      "step": 375
    },
    {
      "epoch": 0.563887222555489,
      "grad_norm": 0.11303426325321198,
      "learning_rate": 0.0001,
      "loss": 0.1998,
      "step": 376
    },
    {
      "epoch": 0.5653869226154769,
      "grad_norm": 0.12516754865646362,
      "learning_rate": 0.0001,
      "loss": 0.2189,
      "step": 377
    },
    {
      "epoch": 0.5668866226754649,
      "grad_norm": 0.19623738527297974,
      "learning_rate": 0.0001,
      "loss": 0.2324,
      "step": 378
    },
    {
      "epoch": 0.5683863227354529,
      "grad_norm": 0.1251467764377594,
      "learning_rate": 0.0001,
      "loss": 0.2255,
      "step": 379
    },
    {
      "epoch": 0.5698860227954409,
      "grad_norm": 0.12432947754859924,
      "learning_rate": 0.0001,
      "loss": 0.2553,
      "step": 380
    },
    {
      "epoch": 0.5713857228554289,
      "grad_norm": 0.09627518802881241,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 381
    },
    {
      "epoch": 0.5728854229154169,
      "grad_norm": 0.11093700677156448,
      "learning_rate": 0.0001,
      "loss": 0.2218,
      "step": 382
    },
    {
      "epoch": 0.5743851229754049,
      "grad_norm": 0.10094857215881348,
      "learning_rate": 0.0001,
      "loss": 0.202,
      "step": 383
    },
    {
      "epoch": 0.5758848230353929,
      "grad_norm": 0.10786937177181244,
      "learning_rate": 0.0001,
      "loss": 0.2226,
      "step": 384
    },
    {
      "epoch": 0.5773845230953809,
      "grad_norm": 0.11181274056434631,
      "learning_rate": 0.0001,
      "loss": 0.2201,
      "step": 385
    },
    {
      "epoch": 0.5788842231553689,
      "grad_norm": 0.14085379242897034,
      "learning_rate": 0.0001,
      "loss": 0.2362,
      "step": 386
    },
    {
      "epoch": 0.5803839232153569,
      "grad_norm": 0.13186833262443542,
      "learning_rate": 0.0001,
      "loss": 0.23,
      "step": 387
    },
    {
      "epoch": 0.5818836232753449,
      "grad_norm": 0.09486398100852966,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 388
    },
    {
      "epoch": 0.5833833233353329,
      "grad_norm": 0.11053674668073654,
      "learning_rate": 0.0001,
      "loss": 0.2172,
      "step": 389
    },
    {
      "epoch": 0.584883023395321,
      "grad_norm": 0.12596546113491058,
      "learning_rate": 0.0001,
      "loss": 0.2284,
      "step": 390
    },
    {
      "epoch": 0.586382723455309,
      "grad_norm": 0.11657583713531494,
      "learning_rate": 0.0001,
      "loss": 0.2165,
      "step": 391
    },
    {
      "epoch": 0.587882423515297,
      "grad_norm": 0.1343691498041153,
      "learning_rate": 0.0001,
      "loss": 0.234,
      "step": 392
    },
    {
      "epoch": 0.589382123575285,
      "grad_norm": 0.156109020113945,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 393
    },
    {
      "epoch": 0.590881823635273,
      "grad_norm": 0.09153826534748077,
      "learning_rate": 0.0001,
      "loss": 0.2093,
      "step": 394
    },
    {
      "epoch": 0.592381523695261,
      "grad_norm": 0.1302408128976822,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 395
    },
    {
      "epoch": 0.593881223755249,
      "grad_norm": 0.11038341373205185,
      "learning_rate": 0.0001,
      "loss": 0.2169,
      "step": 396
    },
    {
      "epoch": 0.595380923815237,
      "grad_norm": 0.09798784554004669,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 397
    },
    {
      "epoch": 0.596880623875225,
      "grad_norm": 0.12775970995426178,
      "learning_rate": 0.0001,
      "loss": 0.2331,
      "step": 398
    },
    {
      "epoch": 0.598380323935213,
      "grad_norm": 0.10707928240299225,
      "learning_rate": 0.0001,
      "loss": 0.2065,
      "step": 399
    },
    {
      "epoch": 0.5998800239952009,
      "grad_norm": 0.14621080458164215,
      "learning_rate": 0.0001,
      "loss": 0.2228,
      "step": 400
    },
    {
      "epoch": 0.6013797240551889,
      "grad_norm": 0.14455725252628326,
      "learning_rate": 0.0001,
      "loss": 0.2248,
      "step": 401
    },
    {
      "epoch": 0.6028794241151769,
      "grad_norm": 0.21082809567451477,
      "learning_rate": 0.0001,
      "loss": 0.2206,
      "step": 402
    },
    {
      "epoch": 0.6043791241751649,
      "grad_norm": 0.13768534362316132,
      "learning_rate": 0.0001,
      "loss": 0.2124,
      "step": 403
    },
    {
      "epoch": 0.6058788242351529,
      "grad_norm": 0.13723093271255493,
      "learning_rate": 0.0001,
      "loss": 0.2225,
      "step": 404
    },
    {
      "epoch": 0.6073785242951409,
      "grad_norm": 0.09842189401388168,
      "learning_rate": 0.0001,
      "loss": 0.2223,
      "step": 405
    },
    {
      "epoch": 0.608878224355129,
      "grad_norm": 0.1310175061225891,
      "learning_rate": 0.0001,
      "loss": 0.2093,
      "step": 406
    },
    {
      "epoch": 0.610377924415117,
      "grad_norm": 0.11020276695489883,
      "learning_rate": 0.0001,
      "loss": 0.2233,
      "step": 407
    },
    {
      "epoch": 0.611877624475105,
      "grad_norm": 0.1099623367190361,
      "learning_rate": 0.0001,
      "loss": 0.2124,
      "step": 408
    },
    {
      "epoch": 0.613377324535093,
      "grad_norm": 0.10146411508321762,
      "learning_rate": 0.0001,
      "loss": 0.2295,
      "step": 409
    },
    {
      "epoch": 0.614877024595081,
      "grad_norm": 0.09836401790380478,
      "learning_rate": 0.0001,
      "loss": 0.2096,
      "step": 410
    },
    {
      "epoch": 0.616376724655069,
      "grad_norm": 0.12423752248287201,
      "learning_rate": 0.0001,
      "loss": 0.2313,
      "step": 411
    },
    {
      "epoch": 0.617876424715057,
      "grad_norm": 0.1267501413822174,
      "learning_rate": 0.0001,
      "loss": 0.2245,
      "step": 412
    },
    {
      "epoch": 0.619376124775045,
      "grad_norm": 0.12719710171222687,
      "learning_rate": 0.0001,
      "loss": 0.2382,
      "step": 413
    },
    {
      "epoch": 0.620875824835033,
      "grad_norm": 0.11193902790546417,
      "learning_rate": 0.0001,
      "loss": 0.2367,
      "step": 414
    },
    {
      "epoch": 0.622375524895021,
      "grad_norm": 0.1146114394068718,
      "learning_rate": 0.0001,
      "loss": 0.2071,
      "step": 415
    },
    {
      "epoch": 0.623875224955009,
      "grad_norm": 0.126240536570549,
      "learning_rate": 0.0001,
      "loss": 0.2353,
      "step": 416
    },
    {
      "epoch": 0.625374925014997,
      "grad_norm": 0.12143292278051376,
      "learning_rate": 0.0001,
      "loss": 0.2396,
      "step": 417
    },
    {
      "epoch": 0.626874625074985,
      "grad_norm": 0.10961715877056122,
      "learning_rate": 0.0001,
      "loss": 0.2275,
      "step": 418
    },
    {
      "epoch": 0.628374325134973,
      "grad_norm": 0.12923157215118408,
      "learning_rate": 0.0001,
      "loss": 0.2238,
      "step": 419
    },
    {
      "epoch": 0.629874025194961,
      "grad_norm": 0.10928046703338623,
      "learning_rate": 0.0001,
      "loss": 0.2,
      "step": 420
    },
    {
      "epoch": 0.6313737252549491,
      "grad_norm": 0.09949153661727905,
      "learning_rate": 0.0001,
      "loss": 0.2214,
      "step": 421
    },
    {
      "epoch": 0.6328734253149371,
      "grad_norm": 0.1356242597103119,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 422
    },
    {
      "epoch": 0.634373125374925,
      "grad_norm": 0.12662914395332336,
      "learning_rate": 0.0001,
      "loss": 0.2059,
      "step": 423
    },
    {
      "epoch": 0.635872825434913,
      "grad_norm": 0.09843951463699341,
      "learning_rate": 0.0001,
      "loss": 0.2095,
      "step": 424
    },
    {
      "epoch": 0.637372525494901,
      "grad_norm": 0.10116660594940186,
      "learning_rate": 0.0001,
      "loss": 0.2399,
      "step": 425
    },
    {
      "epoch": 0.638872225554889,
      "grad_norm": 0.11842836439609528,
      "learning_rate": 0.0001,
      "loss": 0.2236,
      "step": 426
    },
    {
      "epoch": 0.640371925614877,
      "grad_norm": 0.10547930747270584,
      "learning_rate": 0.0001,
      "loss": 0.2203,
      "step": 427
    },
    {
      "epoch": 0.641871625674865,
      "grad_norm": 0.10319588333368301,
      "learning_rate": 0.0001,
      "loss": 0.2085,
      "step": 428
    },
    {
      "epoch": 0.643371325734853,
      "grad_norm": 0.09433281421661377,
      "learning_rate": 0.0001,
      "loss": 0.1954,
      "step": 429
    },
    {
      "epoch": 0.644871025794841,
      "grad_norm": 0.1277964860200882,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 430
    },
    {
      "epoch": 0.646370725854829,
      "grad_norm": 0.12398014217615128,
      "learning_rate": 0.0001,
      "loss": 0.2237,
      "step": 431
    },
    {
      "epoch": 0.647870425914817,
      "grad_norm": 0.1350158452987671,
      "learning_rate": 0.0001,
      "loss": 0.2465,
      "step": 432
    },
    {
      "epoch": 0.649370125974805,
      "grad_norm": 0.09814801812171936,
      "learning_rate": 0.0001,
      "loss": 0.2103,
      "step": 433
    },
    {
      "epoch": 0.650869826034793,
      "grad_norm": 0.09819953143596649,
      "learning_rate": 0.0001,
      "loss": 0.2157,
      "step": 434
    },
    {
      "epoch": 0.652369526094781,
      "grad_norm": 0.137606680393219,
      "learning_rate": 0.0001,
      "loss": 0.2211,
      "step": 435
    },
    {
      "epoch": 0.6538692261547691,
      "grad_norm": 0.09968744963407516,
      "learning_rate": 0.0001,
      "loss": 0.2198,
      "step": 436
    },
    {
      "epoch": 0.6553689262147571,
      "grad_norm": 0.12343662232160568,
      "learning_rate": 0.0001,
      "loss": 0.2139,
      "step": 437
    },
    {
      "epoch": 0.6568686262747451,
      "grad_norm": 0.12796743214130402,
      "learning_rate": 0.0001,
      "loss": 0.216,
      "step": 438
    },
    {
      "epoch": 0.6583683263347331,
      "grad_norm": 0.10503791272640228,
      "learning_rate": 0.0001,
      "loss": 0.2084,
      "step": 439
    },
    {
      "epoch": 0.6598680263947211,
      "grad_norm": 0.09149747341871262,
      "learning_rate": 0.0001,
      "loss": 0.1912,
      "step": 440
    },
    {
      "epoch": 0.6613677264547091,
      "grad_norm": 0.10386841744184494,
      "learning_rate": 0.0001,
      "loss": 0.2251,
      "step": 441
    },
    {
      "epoch": 0.6628674265146971,
      "grad_norm": 0.13264188170433044,
      "learning_rate": 0.0001,
      "loss": 0.2397,
      "step": 442
    },
    {
      "epoch": 0.6643671265746851,
      "grad_norm": 0.11266735941171646,
      "learning_rate": 0.0001,
      "loss": 0.1993,
      "step": 443
    },
    {
      "epoch": 0.6658668266346731,
      "grad_norm": 0.1498415321111679,
      "learning_rate": 0.0001,
      "loss": 0.217,
      "step": 444
    },
    {
      "epoch": 0.6673665266946611,
      "grad_norm": 0.12603269517421722,
      "learning_rate": 0.0001,
      "loss": 0.2381,
      "step": 445
    },
    {
      "epoch": 0.668866226754649,
      "grad_norm": 0.1668834239244461,
      "learning_rate": 0.0001,
      "loss": 0.2274,
      "step": 446
    },
    {
      "epoch": 0.670365926814637,
      "grad_norm": 0.09581972658634186,
      "learning_rate": 0.0001,
      "loss": 0.2208,
      "step": 447
    },
    {
      "epoch": 0.671865626874625,
      "grad_norm": 0.10210860520601273,
      "learning_rate": 0.0001,
      "loss": 0.2109,
      "step": 448
    },
    {
      "epoch": 0.673365326934613,
      "grad_norm": 0.1345510184764862,
      "learning_rate": 0.0001,
      "loss": 0.2252,
      "step": 449
    },
    {
      "epoch": 0.674865026994601,
      "grad_norm": 0.1305728256702423,
      "learning_rate": 0.0001,
      "loss": 0.2282,
      "step": 450
    },
    {
      "epoch": 0.676364727054589,
      "grad_norm": 0.10203608870506287,
      "learning_rate": 0.0001,
      "loss": 0.2146,
      "step": 451
    },
    {
      "epoch": 0.6778644271145771,
      "grad_norm": 0.09888863563537598,
      "learning_rate": 0.0001,
      "loss": 0.2151,
      "step": 452
    },
    {
      "epoch": 0.6793641271745651,
      "grad_norm": 0.09078283607959747,
      "learning_rate": 0.0001,
      "loss": 0.2052,
      "step": 453
    },
    {
      "epoch": 0.6808638272345531,
      "grad_norm": 0.10989026725292206,
      "learning_rate": 0.0001,
      "loss": 0.2274,
      "step": 454
    },
    {
      "epoch": 0.6823635272945411,
      "grad_norm": 0.0963398739695549,
      "learning_rate": 0.0001,
      "loss": 0.2357,
      "step": 455
    },
    {
      "epoch": 0.6838632273545291,
      "grad_norm": 0.10673603415489197,
      "learning_rate": 0.0001,
      "loss": 0.2061,
      "step": 456
    },
    {
      "epoch": 0.6853629274145171,
      "grad_norm": 0.0920591950416565,
      "learning_rate": 0.0001,
      "loss": 0.2167,
      "step": 457
    },
    {
      "epoch": 0.6868626274745051,
      "grad_norm": 0.10887108743190765,
      "learning_rate": 0.0001,
      "loss": 0.2086,
      "step": 458
    },
    {
      "epoch": 0.6883623275344931,
      "grad_norm": 0.09827753156423569,
      "learning_rate": 0.0001,
      "loss": 0.2252,
      "step": 459
    },
    {
      "epoch": 0.6898620275944811,
      "grad_norm": 0.11674481630325317,
      "learning_rate": 0.0001,
      "loss": 0.2145,
      "step": 460
    },
    {
      "epoch": 0.6913617276544691,
      "grad_norm": 0.14527758955955505,
      "learning_rate": 0.0001,
      "loss": 0.2176,
      "step": 461
    },
    {
      "epoch": 0.6928614277144571,
      "grad_norm": 0.10165667533874512,
      "learning_rate": 0.0001,
      "loss": 0.2151,
      "step": 462
    },
    {
      "epoch": 0.6943611277744451,
      "grad_norm": 0.09617787599563599,
      "learning_rate": 0.0001,
      "loss": 0.1978,
      "step": 463
    },
    {
      "epoch": 0.6958608278344331,
      "grad_norm": 0.13596223294734955,
      "learning_rate": 0.0001,
      "loss": 0.2001,
      "step": 464
    },
    {
      "epoch": 0.6973605278944212,
      "grad_norm": 0.14739064872264862,
      "learning_rate": 0.0001,
      "loss": 0.2285,
      "step": 465
    },
    {
      "epoch": 0.6988602279544092,
      "grad_norm": 0.09548045694828033,
      "learning_rate": 0.0001,
      "loss": 0.2042,
      "step": 466
    },
    {
      "epoch": 0.7003599280143972,
      "grad_norm": 0.10399238765239716,
      "learning_rate": 0.0001,
      "loss": 0.2353,
      "step": 467
    },
    {
      "epoch": 0.7018596280743852,
      "grad_norm": 0.13078883290290833,
      "learning_rate": 0.0001,
      "loss": 0.2345,
      "step": 468
    },
    {
      "epoch": 0.7033593281343731,
      "grad_norm": 0.11108624190092087,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 469
    },
    {
      "epoch": 0.7048590281943611,
      "grad_norm": 0.10286956280469894,
      "learning_rate": 0.0001,
      "loss": 0.2307,
      "step": 470
    },
    {
      "epoch": 0.7063587282543491,
      "grad_norm": 0.09622861444950104,
      "learning_rate": 0.0001,
      "loss": 0.2285,
      "step": 471
    },
    {
      "epoch": 0.7078584283143371,
      "grad_norm": 0.09208010882139206,
      "learning_rate": 0.0001,
      "loss": 0.2018,
      "step": 472
    },
    {
      "epoch": 0.7093581283743251,
      "grad_norm": 0.11452697962522507,
      "learning_rate": 0.0001,
      "loss": 0.2414,
      "step": 473
    },
    {
      "epoch": 0.7108578284343131,
      "grad_norm": 0.10764852911233902,
      "learning_rate": 0.0001,
      "loss": 0.2347,
      "step": 474
    },
    {
      "epoch": 0.7123575284943011,
      "grad_norm": 0.09512163698673248,
      "learning_rate": 0.0001,
      "loss": 0.2237,
      "step": 475
    },
    {
      "epoch": 0.7138572285542891,
      "grad_norm": 0.12286348640918732,
      "learning_rate": 0.0001,
      "loss": 0.2164,
      "step": 476
    },
    {
      "epoch": 0.7153569286142771,
      "grad_norm": 0.13753214478492737,
      "learning_rate": 0.0001,
      "loss": 0.2058,
      "step": 477
    },
    {
      "epoch": 0.7168566286742651,
      "grad_norm": 0.0965845137834549,
      "learning_rate": 0.0001,
      "loss": 0.2174,
      "step": 478
    },
    {
      "epoch": 0.7183563287342531,
      "grad_norm": 0.08783368021249771,
      "learning_rate": 0.0001,
      "loss": 0.2116,
      "step": 479
    },
    {
      "epoch": 0.7198560287942412,
      "grad_norm": 0.12108461558818817,
      "learning_rate": 0.0001,
      "loss": 0.2471,
      "step": 480
    },
    {
      "epoch": 0.7213557288542292,
      "grad_norm": 0.10691869258880615,
      "learning_rate": 0.0001,
      "loss": 0.1983,
      "step": 481
    },
    {
      "epoch": 0.7228554289142172,
      "grad_norm": 0.11729602515697479,
      "learning_rate": 0.0001,
      "loss": 0.219,
      "step": 482
    },
    {
      "epoch": 0.7243551289742052,
      "grad_norm": 0.10403406620025635,
      "learning_rate": 0.0001,
      "loss": 0.2206,
      "step": 483
    },
    {
      "epoch": 0.7258548290341932,
      "grad_norm": 0.10635318607091904,
      "learning_rate": 0.0001,
      "loss": 0.2238,
      "step": 484
    },
    {
      "epoch": 0.7273545290941812,
      "grad_norm": 0.30617284774780273,
      "learning_rate": 0.0001,
      "loss": 0.2053,
      "step": 485
    },
    {
      "epoch": 0.7288542291541692,
      "grad_norm": 0.11571839451789856,
      "learning_rate": 0.0001,
      "loss": 0.2206,
      "step": 486
    },
    {
      "epoch": 0.7303539292141572,
      "grad_norm": 0.101313017308712,
      "learning_rate": 0.0001,
      "loss": 0.229,
      "step": 487
    },
    {
      "epoch": 0.7318536292741452,
      "grad_norm": 0.0965825766324997,
      "learning_rate": 0.0001,
      "loss": 0.2058,
      "step": 488
    },
    {
      "epoch": 0.7333533293341332,
      "grad_norm": 0.07832009345293045,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 489
    },
    {
      "epoch": 0.7348530293941212,
      "grad_norm": 0.1255597621202469,
      "learning_rate": 0.0001,
      "loss": 0.2272,
      "step": 490
    },
    {
      "epoch": 0.7363527294541091,
      "grad_norm": 0.09781723469495773,
      "learning_rate": 0.0001,
      "loss": 0.2179,
      "step": 491
    },
    {
      "epoch": 0.7378524295140971,
      "grad_norm": 0.10292316228151321,
      "learning_rate": 0.0001,
      "loss": 0.218,
      "step": 492
    },
    {
      "epoch": 0.7393521295740851,
      "grad_norm": 0.09440140426158905,
      "learning_rate": 0.0001,
      "loss": 0.2078,
      "step": 493
    },
    {
      "epoch": 0.7408518296340731,
      "grad_norm": 0.10057177394628525,
      "learning_rate": 0.0001,
      "loss": 0.1963,
      "step": 494
    },
    {
      "epoch": 0.7423515296940612,
      "grad_norm": 0.09248261153697968,
      "learning_rate": 0.0001,
      "loss": 0.2007,
      "step": 495
    },
    {
      "epoch": 0.7438512297540492,
      "grad_norm": 0.10539016872644424,
      "learning_rate": 0.0001,
      "loss": 0.2413,
      "step": 496
    },
    {
      "epoch": 0.7453509298140372,
      "grad_norm": 0.1033649668097496,
      "learning_rate": 0.0001,
      "loss": 0.2187,
      "step": 497
    },
    {
      "epoch": 0.7468506298740252,
      "grad_norm": 0.11573165655136108,
      "learning_rate": 0.0001,
      "loss": 0.2025,
      "step": 498
    },
    {
      "epoch": 0.7483503299340132,
      "grad_norm": 0.09482281655073166,
      "learning_rate": 0.0001,
      "loss": 0.2293,
      "step": 499
    },
    {
      "epoch": 0.7498500299940012,
      "grad_norm": 0.09477631002664566,
      "learning_rate": 0.0001,
      "loss": 0.2097,
      "step": 500
    },
    {
      "epoch": 0.7498500299940012,
      "eval_loss": 0.21578337252140045,
      "eval_runtime": 506.8357,
      "eval_samples_per_second": 4.933,
      "eval_steps_per_second": 1.233,
      "step": 500
    },
    {
      "epoch": 0.7513497300539892,
      "grad_norm": 0.11679918318986893,
      "learning_rate": 0.0001,
      "loss": 0.2318,
      "step": 501
    },
    {
      "epoch": 0.7528494301139772,
      "grad_norm": 0.09102161228656769,
      "learning_rate": 0.0001,
      "loss": 0.2128,
      "step": 502
    },
    {
      "epoch": 0.7543491301739652,
      "grad_norm": 0.1023838222026825,
      "learning_rate": 0.0001,
      "loss": 0.2193,
      "step": 503
    },
    {
      "epoch": 0.7558488302339532,
      "grad_norm": 0.09034296870231628,
      "learning_rate": 0.0001,
      "loss": 0.2154,
      "step": 504
    },
    {
      "epoch": 0.7573485302939412,
      "grad_norm": 0.09631599485874176,
      "learning_rate": 0.0001,
      "loss": 0.2054,
      "step": 505
    },
    {
      "epoch": 0.7588482303539292,
      "grad_norm": 0.09656225889921188,
      "learning_rate": 0.0001,
      "loss": 0.2159,
      "step": 506
    },
    {
      "epoch": 0.7603479304139172,
      "grad_norm": 0.11415083706378937,
      "learning_rate": 0.0001,
      "loss": 0.2267,
      "step": 507
    },
    {
      "epoch": 0.7618476304739052,
      "grad_norm": 0.09712624549865723,
      "learning_rate": 0.0001,
      "loss": 0.2045,
      "step": 508
    },
    {
      "epoch": 0.7633473305338933,
      "grad_norm": 0.12148906290531158,
      "learning_rate": 0.0001,
      "loss": 0.2092,
      "step": 509
    },
    {
      "epoch": 0.7648470305938813,
      "grad_norm": 0.09583642333745956,
      "learning_rate": 0.0001,
      "loss": 0.1975,
      "step": 510
    },
    {
      "epoch": 0.7663467306538693,
      "grad_norm": 0.08922624588012695,
      "learning_rate": 0.0001,
      "loss": 0.1864,
      "step": 511
    },
    {
      "epoch": 0.7678464307138573,
      "grad_norm": 0.10744397342205048,
      "learning_rate": 0.0001,
      "loss": 0.2067,
      "step": 512
    },
    {
      "epoch": 0.7693461307738453,
      "grad_norm": 0.1066625639796257,
      "learning_rate": 0.0001,
      "loss": 0.2203,
      "step": 513
    },
    {
      "epoch": 0.7708458308338332,
      "grad_norm": 0.11653569340705872,
      "learning_rate": 0.0001,
      "loss": 0.2119,
      "step": 514
    },
    {
      "epoch": 0.7723455308938212,
      "grad_norm": 0.0914357453584671,
      "learning_rate": 0.0001,
      "loss": 0.1805,
      "step": 515
    },
    {
      "epoch": 0.7738452309538092,
      "grad_norm": 0.11257883161306381,
      "learning_rate": 0.0001,
      "loss": 0.2246,
      "step": 516
    },
    {
      "epoch": 0.7753449310137972,
      "grad_norm": 0.09858301281929016,
      "learning_rate": 0.0001,
      "loss": 0.2163,
      "step": 517
    },
    {
      "epoch": 0.7768446310737852,
      "grad_norm": 0.11584201455116272,
      "learning_rate": 0.0001,
      "loss": 0.2164,
      "step": 518
    },
    {
      "epoch": 0.7783443311337732,
      "grad_norm": 0.11210747808218002,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 519
    },
    {
      "epoch": 0.7798440311937612,
      "grad_norm": 0.12225062400102615,
      "learning_rate": 0.0001,
      "loss": 0.2184,
      "step": 520
    },
    {
      "epoch": 0.7813437312537492,
      "grad_norm": 0.1120256632566452,
      "learning_rate": 0.0001,
      "loss": 0.2263,
      "step": 521
    },
    {
      "epoch": 0.7828434313137372,
      "grad_norm": 0.10090862214565277,
      "learning_rate": 0.0001,
      "loss": 0.2145,
      "step": 522
    },
    {
      "epoch": 0.7843431313737252,
      "grad_norm": 0.09022162109613419,
      "learning_rate": 0.0001,
      "loss": 0.2054,
      "step": 523
    },
    {
      "epoch": 0.7858428314337133,
      "grad_norm": 0.11771591007709503,
      "learning_rate": 0.0001,
      "loss": 0.2115,
      "step": 524
    },
    {
      "epoch": 0.7873425314937013,
      "grad_norm": 0.08520888537168503,
      "learning_rate": 0.0001,
      "loss": 0.1957,
      "step": 525
    },
    {
      "epoch": 0.7888422315536893,
      "grad_norm": 0.08647800236940384,
      "learning_rate": 0.0001,
      "loss": 0.2058,
      "step": 526
    },
    {
      "epoch": 0.7903419316136773,
      "grad_norm": 0.09288011491298676,
      "learning_rate": 0.0001,
      "loss": 0.1949,
      "step": 527
    },
    {
      "epoch": 0.7918416316736653,
      "grad_norm": 0.09584647417068481,
      "learning_rate": 0.0001,
      "loss": 0.1981,
      "step": 528
    },
    {
      "epoch": 0.7933413317336533,
      "grad_norm": 0.09743952751159668,
      "learning_rate": 0.0001,
      "loss": 0.2105,
      "step": 529
    },
    {
      "epoch": 0.7948410317936413,
      "grad_norm": 0.1127566248178482,
      "learning_rate": 0.0001,
      "loss": 0.2026,
      "step": 530
    },
    {
      "epoch": 0.7963407318536293,
      "grad_norm": 0.10091721266508102,
      "learning_rate": 0.0001,
      "loss": 0.2077,
      "step": 531
    },
    {
      "epoch": 0.7978404319136173,
      "grad_norm": 0.11705397814512253,
      "learning_rate": 0.0001,
      "loss": 0.2177,
      "step": 532
    },
    {
      "epoch": 0.7993401319736053,
      "grad_norm": 0.11322438716888428,
      "learning_rate": 0.0001,
      "loss": 0.2222,
      "step": 533
    },
    {
      "epoch": 0.8008398320335933,
      "grad_norm": 0.10803792625665665,
      "learning_rate": 0.0001,
      "loss": 0.2117,
      "step": 534
    },
    {
      "epoch": 0.8023395320935813,
      "grad_norm": 0.12803536653518677,
      "learning_rate": 0.0001,
      "loss": 0.2278,
      "step": 535
    },
    {
      "epoch": 0.8038392321535693,
      "grad_norm": 0.10769044607877731,
      "learning_rate": 0.0001,
      "loss": 0.2135,
      "step": 536
    },
    {
      "epoch": 0.8053389322135572,
      "grad_norm": 0.11395785957574844,
      "learning_rate": 0.0001,
      "loss": 0.2149,
      "step": 537
    },
    {
      "epoch": 0.8068386322735452,
      "grad_norm": 0.08892972022294998,
      "learning_rate": 0.0001,
      "loss": 0.2001,
      "step": 538
    },
    {
      "epoch": 0.8083383323335332,
      "grad_norm": 0.10246404260396957,
      "learning_rate": 0.0001,
      "loss": 0.2094,
      "step": 539
    },
    {
      "epoch": 0.8098380323935213,
      "grad_norm": 0.12819655239582062,
      "learning_rate": 0.0001,
      "loss": 0.2265,
      "step": 540
    },
    {
      "epoch": 0.8113377324535093,
      "grad_norm": 0.1305549442768097,
      "learning_rate": 0.0001,
      "loss": 0.2102,
      "step": 541
    },
    {
      "epoch": 0.8128374325134973,
      "grad_norm": 0.1031220480799675,
      "learning_rate": 0.0001,
      "loss": 0.2131,
      "step": 542
    },
    {
      "epoch": 0.8143371325734853,
      "grad_norm": 0.10843245685100555,
      "learning_rate": 0.0001,
      "loss": 0.226,
      "step": 543
    },
    {
      "epoch": 0.8158368326334733,
      "grad_norm": 0.1079210415482521,
      "learning_rate": 0.0001,
      "loss": 0.2164,
      "step": 544
    },
    {
      "epoch": 0.8173365326934613,
      "grad_norm": 0.10290593653917313,
      "learning_rate": 0.0001,
      "loss": 0.224,
      "step": 545
    },
    {
      "epoch": 0.8188362327534493,
      "grad_norm": 0.1294582486152649,
      "learning_rate": 0.0001,
      "loss": 0.2269,
      "step": 546
    },
    {
      "epoch": 0.8203359328134373,
      "grad_norm": 0.10960813611745834,
      "learning_rate": 0.0001,
      "loss": 0.1986,
      "step": 547
    },
    {
      "epoch": 0.8218356328734253,
      "grad_norm": 0.11345585435628891,
      "learning_rate": 0.0001,
      "loss": 0.2252,
      "step": 548
    },
    {
      "epoch": 0.8233353329334133,
      "grad_norm": 0.09634127467870712,
      "learning_rate": 0.0001,
      "loss": 0.2175,
      "step": 549
    },
    {
      "epoch": 0.8248350329934013,
      "grad_norm": 0.11613244563341141,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 550
    },
    {
      "epoch": 0.8263347330533893,
      "grad_norm": 0.273254930973053,
      "learning_rate": 0.0001,
      "loss": 0.2368,
      "step": 551
    },
    {
      "epoch": 0.8278344331133773,
      "grad_norm": 0.10379962623119354,
      "learning_rate": 0.0001,
      "loss": 0.1959,
      "step": 552
    },
    {
      "epoch": 0.8293341331733654,
      "grad_norm": 0.11916296929121017,
      "learning_rate": 0.0001,
      "loss": 0.2294,
      "step": 553
    },
    {
      "epoch": 0.8308338332333534,
      "grad_norm": 0.10266131907701492,
      "learning_rate": 0.0001,
      "loss": 0.2194,
      "step": 554
    },
    {
      "epoch": 0.8323335332933414,
      "grad_norm": 0.10023888945579529,
      "learning_rate": 0.0001,
      "loss": 0.2055,
      "step": 555
    },
    {
      "epoch": 0.8338332333533294,
      "grad_norm": 0.10321132093667984,
      "learning_rate": 0.0001,
      "loss": 0.2059,
      "step": 556
    },
    {
      "epoch": 0.8353329334133174,
      "grad_norm": 0.10294069349765778,
      "learning_rate": 0.0001,
      "loss": 0.2075,
      "step": 557
    },
    {
      "epoch": 0.8368326334733054,
      "grad_norm": 0.09659267961978912,
      "learning_rate": 0.0001,
      "loss": 0.2225,
      "step": 558
    },
    {
      "epoch": 0.8383323335332934,
      "grad_norm": 0.10405358672142029,
      "learning_rate": 0.0001,
      "loss": 0.2224,
      "step": 559
    },
    {
      "epoch": 0.8398320335932813,
      "grad_norm": 0.12286487221717834,
      "learning_rate": 0.0001,
      "loss": 0.2134,
      "step": 560
    },
    {
      "epoch": 0.8413317336532693,
      "grad_norm": 0.09716399759054184,
      "learning_rate": 0.0001,
      "loss": 0.2072,
      "step": 561
    },
    {
      "epoch": 0.8428314337132573,
      "grad_norm": 0.11369754374027252,
      "learning_rate": 0.0001,
      "loss": 0.2071,
      "step": 562
    },
    {
      "epoch": 0.8443311337732453,
      "grad_norm": 0.11178731918334961,
      "learning_rate": 0.0001,
      "loss": 0.2148,
      "step": 563
    },
    {
      "epoch": 0.8458308338332333,
      "grad_norm": 0.08567094057798386,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 564
    },
    {
      "epoch": 0.8473305338932213,
      "grad_norm": 0.10365517437458038,
      "learning_rate": 0.0001,
      "loss": 0.1982,
      "step": 565
    },
    {
      "epoch": 0.8488302339532093,
      "grad_norm": 0.11046506464481354,
      "learning_rate": 0.0001,
      "loss": 0.215,
      "step": 566
    },
    {
      "epoch": 0.8503299340131973,
      "grad_norm": 0.11302068829536438,
      "learning_rate": 0.0001,
      "loss": 0.206,
      "step": 567
    },
    {
      "epoch": 0.8518296340731853,
      "grad_norm": 0.24488595128059387,
      "learning_rate": 0.0001,
      "loss": 0.2136,
      "step": 568
    },
    {
      "epoch": 0.8533293341331734,
      "grad_norm": 0.11437644809484482,
      "learning_rate": 0.0001,
      "loss": 0.215,
      "step": 569
    },
    {
      "epoch": 0.8548290341931614,
      "grad_norm": 0.11564870923757553,
      "learning_rate": 0.0001,
      "loss": 0.2099,
      "step": 570
    },
    {
      "epoch": 0.8563287342531494,
      "grad_norm": 0.10736537724733353,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 571
    },
    {
      "epoch": 0.8578284343131374,
      "grad_norm": 0.13170544803142548,
      "learning_rate": 0.0001,
      "loss": 0.2118,
      "step": 572
    },
    {
      "epoch": 0.8593281343731254,
      "grad_norm": 0.09859754145145416,
      "learning_rate": 0.0001,
      "loss": 0.229,
      "step": 573
    },
    {
      "epoch": 0.8608278344331134,
      "grad_norm": 0.11020272970199585,
      "learning_rate": 0.0001,
      "loss": 0.2209,
      "step": 574
    },
    {
      "epoch": 0.8623275344931014,
      "grad_norm": 0.13490204513072968,
      "learning_rate": 0.0001,
      "loss": 0.2249,
      "step": 575
    },
    {
      "epoch": 0.8638272345530894,
      "grad_norm": 0.09791447967290878,
      "learning_rate": 0.0001,
      "loss": 0.2203,
      "step": 576
    },
    {
      "epoch": 0.8653269346130774,
      "grad_norm": 0.11537817865610123,
      "learning_rate": 0.0001,
      "loss": 0.2279,
      "step": 577
    },
    {
      "epoch": 0.8668266346730654,
      "grad_norm": 0.10960408300161362,
      "learning_rate": 0.0001,
      "loss": 0.2079,
      "step": 578
    },
    {
      "epoch": 0.8683263347330534,
      "grad_norm": 0.11934293061494827,
      "learning_rate": 0.0001,
      "loss": 0.2119,
      "step": 579
    },
    {
      "epoch": 0.8698260347930414,
      "grad_norm": 0.10689083486795425,
      "learning_rate": 0.0001,
      "loss": 0.2026,
      "step": 580
    },
    {
      "epoch": 0.8713257348530294,
      "grad_norm": 0.10550180822610855,
      "learning_rate": 0.0001,
      "loss": 0.2179,
      "step": 581
    },
    {
      "epoch": 0.8728254349130175,
      "grad_norm": 0.09332005679607391,
      "learning_rate": 0.0001,
      "loss": 0.2098,
      "step": 582
    },
    {
      "epoch": 0.8743251349730053,
      "grad_norm": 0.10493681579828262,
      "learning_rate": 0.0001,
      "loss": 0.2069,
      "step": 583
    },
    {
      "epoch": 0.8758248350329934,
      "grad_norm": 0.102161705493927,
      "learning_rate": 0.0001,
      "loss": 0.1978,
      "step": 584
    },
    {
      "epoch": 0.8773245350929814,
      "grad_norm": 0.11162843555212021,
      "learning_rate": 0.0001,
      "loss": 0.2112,
      "step": 585
    },
    {
      "epoch": 0.8788242351529694,
      "grad_norm": 0.09378867596387863,
      "learning_rate": 0.0001,
      "loss": 0.213,
      "step": 586
    },
    {
      "epoch": 0.8803239352129574,
      "grad_norm": 0.11314041167497635,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 587
    },
    {
      "epoch": 0.8818236352729454,
      "grad_norm": 0.14995597302913666,
      "learning_rate": 0.0001,
      "loss": 0.2343,
      "step": 588
    },
    {
      "epoch": 0.8833233353329334,
      "grad_norm": 0.11812592297792435,
      "learning_rate": 0.0001,
      "loss": 0.209,
      "step": 589
    },
    {
      "epoch": 0.8848230353929214,
      "grad_norm": 0.09353020042181015,
      "learning_rate": 0.0001,
      "loss": 0.1976,
      "step": 590
    },
    {
      "epoch": 0.8863227354529094,
      "grad_norm": 0.10546504706144333,
      "learning_rate": 0.0001,
      "loss": 0.1994,
      "step": 591
    },
    {
      "epoch": 0.8878224355128974,
      "grad_norm": 0.12974244356155396,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 592
    },
    {
      "epoch": 0.8893221355728854,
      "grad_norm": 0.1789865344762802,
      "learning_rate": 0.0001,
      "loss": 0.2406,
      "step": 593
    },
    {
      "epoch": 0.8908218356328734,
      "grad_norm": 0.12361947447061539,
      "learning_rate": 0.0001,
      "loss": 0.2096,
      "step": 594
    },
    {
      "epoch": 0.8923215356928614,
      "grad_norm": 0.0920807272195816,
      "learning_rate": 0.0001,
      "loss": 0.213,
      "step": 595
    },
    {
      "epoch": 0.8938212357528494,
      "grad_norm": 0.10168680548667908,
      "learning_rate": 0.0001,
      "loss": 0.2152,
      "step": 596
    },
    {
      "epoch": 0.8953209358128374,
      "grad_norm": 0.08380743861198425,
      "learning_rate": 0.0001,
      "loss": 0.2022,
      "step": 597
    },
    {
      "epoch": 0.8968206358728255,
      "grad_norm": 0.1097419336438179,
      "learning_rate": 0.0001,
      "loss": 0.2136,
      "step": 598
    },
    {
      "epoch": 0.8983203359328135,
      "grad_norm": 0.09766004234552383,
      "learning_rate": 0.0001,
      "loss": 0.2029,
      "step": 599
    },
    {
      "epoch": 0.8998200359928015,
      "grad_norm": 0.1052803099155426,
      "learning_rate": 0.0001,
      "loss": 0.2216,
      "step": 600
    },
    {
      "epoch": 0.9013197360527895,
      "grad_norm": 0.07872860878705978,
      "learning_rate": 0.0001,
      "loss": 0.2032,
      "step": 601
    },
    {
      "epoch": 0.9028194361127775,
      "grad_norm": 0.10496208816766739,
      "learning_rate": 0.0001,
      "loss": 0.2196,
      "step": 602
    },
    {
      "epoch": 0.9043191361727655,
      "grad_norm": 0.1141924262046814,
      "learning_rate": 0.0001,
      "loss": 0.2296,
      "step": 603
    },
    {
      "epoch": 0.9058188362327535,
      "grad_norm": 0.09011315554380417,
      "learning_rate": 0.0001,
      "loss": 0.1994,
      "step": 604
    },
    {
      "epoch": 0.9073185362927415,
      "grad_norm": 0.10126592963933945,
      "learning_rate": 0.0001,
      "loss": 0.2199,
      "step": 605
    },
    {
      "epoch": 0.9088182363527294,
      "grad_norm": 0.10526952147483826,
      "learning_rate": 0.0001,
      "loss": 0.2269,
      "step": 606
    },
    {
      "epoch": 0.9103179364127174,
      "grad_norm": 0.14469511806964874,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 607
    },
    {
      "epoch": 0.9118176364727054,
      "grad_norm": 0.11505740135908127,
      "learning_rate": 0.0001,
      "loss": 0.2254,
      "step": 608
    },
    {
      "epoch": 0.9133173365326934,
      "grad_norm": 0.10325761884450912,
      "learning_rate": 0.0001,
      "loss": 0.2233,
      "step": 609
    },
    {
      "epoch": 0.9148170365926814,
      "grad_norm": 0.09976634383201599,
      "learning_rate": 0.0001,
      "loss": 0.218,
      "step": 610
    },
    {
      "epoch": 0.9163167366526694,
      "grad_norm": 0.10747033357620239,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 611
    },
    {
      "epoch": 0.9178164367126574,
      "grad_norm": 0.11125564575195312,
      "learning_rate": 0.0001,
      "loss": 0.2146,
      "step": 612
    },
    {
      "epoch": 0.9193161367726455,
      "grad_norm": 0.10594183951616287,
      "learning_rate": 0.0001,
      "loss": 0.2154,
      "step": 613
    },
    {
      "epoch": 0.9208158368326335,
      "grad_norm": 0.1103501245379448,
      "learning_rate": 0.0001,
      "loss": 0.2212,
      "step": 614
    },
    {
      "epoch": 0.9223155368926215,
      "grad_norm": 0.09188461303710938,
      "learning_rate": 0.0001,
      "loss": 0.1971,
      "step": 615
    },
    {
      "epoch": 0.9238152369526095,
      "grad_norm": 0.10074790567159653,
      "learning_rate": 0.0001,
      "loss": 0.2185,
      "step": 616
    },
    {
      "epoch": 0.9253149370125975,
      "grad_norm": 0.10737845301628113,
      "learning_rate": 0.0001,
      "loss": 0.2271,
      "step": 617
    },
    {
      "epoch": 0.9268146370725855,
      "grad_norm": 0.10384105145931244,
      "learning_rate": 0.0001,
      "loss": 0.2219,
      "step": 618
    },
    {
      "epoch": 0.9283143371325735,
      "grad_norm": 0.08594530075788498,
      "learning_rate": 0.0001,
      "loss": 0.1999,
      "step": 619
    },
    {
      "epoch": 0.9298140371925615,
      "grad_norm": 0.10055860877037048,
      "learning_rate": 0.0001,
      "loss": 0.22,
      "step": 620
    },
    {
      "epoch": 0.9313137372525495,
      "grad_norm": 0.0982082337141037,
      "learning_rate": 0.0001,
      "loss": 0.204,
      "step": 621
    },
    {
      "epoch": 0.9328134373125375,
      "grad_norm": 0.10011821985244751,
      "learning_rate": 0.0001,
      "loss": 0.2187,
      "step": 622
    },
    {
      "epoch": 0.9343131373725255,
      "grad_norm": 0.12968780100345612,
      "learning_rate": 0.0001,
      "loss": 0.2256,
      "step": 623
    },
    {
      "epoch": 0.9358128374325135,
      "grad_norm": 0.11104759573936462,
      "learning_rate": 0.0001,
      "loss": 0.1952,
      "step": 624
    },
    {
      "epoch": 0.9373125374925015,
      "grad_norm": 0.11531363427639008,
      "learning_rate": 0.0001,
      "loss": 0.2216,
      "step": 625
    },
    {
      "epoch": 0.9388122375524895,
      "grad_norm": 0.1286766678094864,
      "learning_rate": 0.0001,
      "loss": 0.1991,
      "step": 626
    },
    {
      "epoch": 0.9403119376124776,
      "grad_norm": 0.10952425003051758,
      "learning_rate": 0.0001,
      "loss": 0.2195,
      "step": 627
    },
    {
      "epoch": 0.9418116376724655,
      "grad_norm": 0.18193714320659637,
      "learning_rate": 0.0001,
      "loss": 0.2295,
      "step": 628
    },
    {
      "epoch": 0.9433113377324535,
      "grad_norm": 0.09393762052059174,
      "learning_rate": 0.0001,
      "loss": 0.2074,
      "step": 629
    },
    {
      "epoch": 0.9448110377924415,
      "grad_norm": 0.12354253977537155,
      "learning_rate": 0.0001,
      "loss": 0.1997,
      "step": 630
    },
    {
      "epoch": 0.9463107378524295,
      "grad_norm": 0.11219238489866257,
      "learning_rate": 0.0001,
      "loss": 0.2268,
      "step": 631
    },
    {
      "epoch": 0.9478104379124175,
      "grad_norm": 0.12364092469215393,
      "learning_rate": 0.0001,
      "loss": 0.2116,
      "step": 632
    },
    {
      "epoch": 0.9493101379724055,
      "grad_norm": 0.11051546037197113,
      "learning_rate": 0.0001,
      "loss": 0.2264,
      "step": 633
    },
    {
      "epoch": 0.9508098380323935,
      "grad_norm": 0.08937495946884155,
      "learning_rate": 0.0001,
      "loss": 0.2054,
      "step": 634
    },
    {
      "epoch": 0.9523095380923815,
      "grad_norm": 0.0990457683801651,
      "learning_rate": 0.0001,
      "loss": 0.1954,
      "step": 635
    },
    {
      "epoch": 0.9538092381523695,
      "grad_norm": 0.10040929913520813,
      "learning_rate": 0.0001,
      "loss": 0.2008,
      "step": 636
    },
    {
      "epoch": 0.9553089382123575,
      "grad_norm": 0.10598693788051605,
      "learning_rate": 0.0001,
      "loss": 0.2122,
      "step": 637
    },
    {
      "epoch": 0.9568086382723455,
      "grad_norm": 0.09421154856681824,
      "learning_rate": 0.0001,
      "loss": 0.1897,
      "step": 638
    },
    {
      "epoch": 0.9583083383323335,
      "grad_norm": 0.10439980775117874,
      "learning_rate": 0.0001,
      "loss": 0.2027,
      "step": 639
    },
    {
      "epoch": 0.9598080383923215,
      "grad_norm": 0.11259579658508301,
      "learning_rate": 0.0001,
      "loss": 0.2153,
      "step": 640
    },
    {
      "epoch": 0.9613077384523095,
      "grad_norm": 0.09855978190898895,
      "learning_rate": 0.0001,
      "loss": 0.2073,
      "step": 641
    },
    {
      "epoch": 0.9628074385122976,
      "grad_norm": 0.11748578399419785,
      "learning_rate": 0.0001,
      "loss": 0.2144,
      "step": 642
    },
    {
      "epoch": 0.9643071385722856,
      "grad_norm": 0.10584662109613419,
      "learning_rate": 0.0001,
      "loss": 0.2219,
      "step": 643
    },
    {
      "epoch": 0.9658068386322736,
      "grad_norm": 0.12917418777942657,
      "learning_rate": 0.0001,
      "loss": 0.2098,
      "step": 644
    },
    {
      "epoch": 0.9673065386922616,
      "grad_norm": 0.10710165649652481,
      "learning_rate": 0.0001,
      "loss": 0.2247,
      "step": 645
    },
    {
      "epoch": 0.9688062387522496,
      "grad_norm": 0.10338737815618515,
      "learning_rate": 0.0001,
      "loss": 0.1996,
      "step": 646
    },
    {
      "epoch": 0.9703059388122376,
      "grad_norm": 0.09679904580116272,
      "learning_rate": 0.0001,
      "loss": 0.1998,
      "step": 647
    },
    {
      "epoch": 0.9718056388722256,
      "grad_norm": 0.115451879799366,
      "learning_rate": 0.0001,
      "loss": 0.2143,
      "step": 648
    },
    {
      "epoch": 0.9733053389322136,
      "grad_norm": 0.09563817083835602,
      "learning_rate": 0.0001,
      "loss": 0.2127,
      "step": 649
    },
    {
      "epoch": 0.9748050389922016,
      "grad_norm": 0.11631198972463608,
      "learning_rate": 0.0001,
      "loss": 0.1991,
      "step": 650
    },
    {
      "epoch": 0.9763047390521895,
      "grad_norm": 0.09878726303577423,
      "learning_rate": 0.0001,
      "loss": 0.2024,
      "step": 651
    },
    {
      "epoch": 0.9778044391121775,
      "grad_norm": 0.1017172709107399,
      "learning_rate": 0.0001,
      "loss": 0.2127,
      "step": 652
    },
    {
      "epoch": 0.9793041391721655,
      "grad_norm": 0.0964798703789711,
      "learning_rate": 0.0001,
      "loss": 0.1915,
      "step": 653
    },
    {
      "epoch": 0.9808038392321535,
      "grad_norm": 0.1058962494134903,
      "learning_rate": 0.0001,
      "loss": 0.2113,
      "step": 654
    },
    {
      "epoch": 0.9823035392921415,
      "grad_norm": 0.1076115220785141,
      "learning_rate": 0.0001,
      "loss": 0.2104,
      "step": 655
    },
    {
      "epoch": 0.9838032393521295,
      "grad_norm": 0.11428354680538177,
      "learning_rate": 0.0001,
      "loss": 0.2225,
      "step": 656
    },
    {
      "epoch": 0.9853029394121176,
      "grad_norm": 0.09447620064020157,
      "learning_rate": 0.0001,
      "loss": 0.2092,
      "step": 657
    },
    {
      "epoch": 0.9868026394721056,
      "grad_norm": 0.10874029248952866,
      "learning_rate": 0.0001,
      "loss": 0.2066,
      "step": 658
    },
    {
      "epoch": 0.9883023395320936,
      "grad_norm": 0.10488974303007126,
      "learning_rate": 0.0001,
      "loss": 0.2016,
      "step": 659
    },
    {
      "epoch": 0.9898020395920816,
      "grad_norm": 0.09794814139604568,
      "learning_rate": 0.0001,
      "loss": 0.2274,
      "step": 660
    },
    {
      "epoch": 0.9913017396520696,
      "grad_norm": 0.10593616962432861,
      "learning_rate": 0.0001,
      "loss": 0.1896,
      "step": 661
    },
    {
      "epoch": 0.9928014397120576,
      "grad_norm": 0.11717484146356583,
      "learning_rate": 0.0001,
      "loss": 0.203,
      "step": 662
    },
    {
      "epoch": 0.9943011397720456,
      "grad_norm": 0.12151151895523071,
      "learning_rate": 0.0001,
      "loss": 0.2152,
      "step": 663
    },
    {
      "epoch": 0.9958008398320336,
      "grad_norm": 0.13009551167488098,
      "learning_rate": 0.0001,
      "loss": 0.2171,
      "step": 664
    },
    {
      "epoch": 0.9973005398920216,
      "grad_norm": 0.10065951198339462,
      "learning_rate": 0.0001,
      "loss": 0.2147,
      "step": 665
    },
    {
      "epoch": 0.9988002399520096,
      "grad_norm": 0.11119916290044785,
      "learning_rate": 0.0001,
      "loss": 0.2308,
      "step": 666
    },
    {
      "epoch": 1.0002999400119976,
      "grad_norm": 0.10694187879562378,
      "learning_rate": 0.0001,
      "loss": 0.2098,
      "step": 667
    },
    {
      "epoch": 1.0017996400719855,
      "grad_norm": 0.09383172541856766,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 668
    },
    {
      "epoch": 1.0032993401319736,
      "grad_norm": 0.09389664977788925,
      "learning_rate": 0.0001,
      "loss": 0.2013,
      "step": 669
    },
    {
      "epoch": 1.0047990401919615,
      "grad_norm": 0.10860121250152588,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 670
    },
    {
      "epoch": 1.0062987402519497,
      "grad_norm": 0.1033325120806694,
      "learning_rate": 0.0001,
      "loss": 0.2011,
      "step": 671
    },
    {
      "epoch": 1.0077984403119375,
      "grad_norm": 0.11294643580913544,
      "learning_rate": 0.0001,
      "loss": 0.2,
      "step": 672
    },
    {
      "epoch": 1.0092981403719257,
      "grad_norm": 0.10008686035871506,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 673
    },
    {
      "epoch": 1.0107978404319136,
      "grad_norm": 0.13241803646087646,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 674
    },
    {
      "epoch": 1.0122975404919017,
      "grad_norm": 0.09498117864131927,
      "learning_rate": 0.0001,
      "loss": 0.1862,
      "step": 675
    },
    {
      "epoch": 1.0137972405518896,
      "grad_norm": 0.14204084873199463,
      "learning_rate": 0.0001,
      "loss": 0.2094,
      "step": 676
    },
    {
      "epoch": 1.0152969406118777,
      "grad_norm": 0.10505989193916321,
      "learning_rate": 0.0001,
      "loss": 0.1918,
      "step": 677
    },
    {
      "epoch": 1.0167966406718656,
      "grad_norm": 0.10175053775310516,
      "learning_rate": 0.0001,
      "loss": 0.1927,
      "step": 678
    },
    {
      "epoch": 1.0182963407318537,
      "grad_norm": 0.10155852138996124,
      "learning_rate": 0.0001,
      "loss": 0.1848,
      "step": 679
    },
    {
      "epoch": 1.0197960407918416,
      "grad_norm": 0.1433250904083252,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 680
    },
    {
      "epoch": 1.0212957408518297,
      "grad_norm": 0.12413835525512695,
      "learning_rate": 0.0001,
      "loss": 0.2255,
      "step": 681
    },
    {
      "epoch": 1.0227954409118176,
      "grad_norm": 0.10063673555850983,
      "learning_rate": 0.0001,
      "loss": 0.2239,
      "step": 682
    },
    {
      "epoch": 1.0242951409718057,
      "grad_norm": 0.09290844202041626,
      "learning_rate": 0.0001,
      "loss": 0.1956,
      "step": 683
    },
    {
      "epoch": 1.0257948410317936,
      "grad_norm": 0.10495743155479431,
      "learning_rate": 0.0001,
      "loss": 0.199,
      "step": 684
    },
    {
      "epoch": 1.0272945410917815,
      "grad_norm": 0.11308827996253967,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 685
    },
    {
      "epoch": 1.0287942411517697,
      "grad_norm": 0.08607936650514603,
      "learning_rate": 0.0001,
      "loss": 0.1932,
      "step": 686
    },
    {
      "epoch": 1.0302939412117575,
      "grad_norm": 0.10874434560537338,
      "learning_rate": 0.0001,
      "loss": 0.21,
      "step": 687
    },
    {
      "epoch": 1.0317936412717457,
      "grad_norm": 0.10842171311378479,
      "learning_rate": 0.0001,
      "loss": 0.2081,
      "step": 688
    },
    {
      "epoch": 1.0332933413317336,
      "grad_norm": 0.13773852586746216,
      "learning_rate": 0.0001,
      "loss": 0.2275,
      "step": 689
    },
    {
      "epoch": 1.0347930413917217,
      "grad_norm": 0.11222590506076813,
      "learning_rate": 0.0001,
      "loss": 0.1918,
      "step": 690
    },
    {
      "epoch": 1.0362927414517096,
      "grad_norm": 0.09908948838710785,
      "learning_rate": 0.0001,
      "loss": 0.1747,
      "step": 691
    },
    {
      "epoch": 1.0377924415116977,
      "grad_norm": 0.1253884732723236,
      "learning_rate": 0.0001,
      "loss": 0.2224,
      "step": 692
    },
    {
      "epoch": 1.0392921415716856,
      "grad_norm": 0.13268928229808807,
      "learning_rate": 0.0001,
      "loss": 0.2033,
      "step": 693
    },
    {
      "epoch": 1.0407918416316737,
      "grad_norm": 0.11617461591959,
      "learning_rate": 0.0001,
      "loss": 0.1982,
      "step": 694
    },
    {
      "epoch": 1.0422915416916616,
      "grad_norm": 0.1298343539237976,
      "learning_rate": 0.0001,
      "loss": 0.2116,
      "step": 695
    },
    {
      "epoch": 1.0437912417516497,
      "grad_norm": 0.12309718132019043,
      "learning_rate": 0.0001,
      "loss": 0.211,
      "step": 696
    },
    {
      "epoch": 1.0452909418116376,
      "grad_norm": 0.11324438452720642,
      "learning_rate": 0.0001,
      "loss": 0.199,
      "step": 697
    },
    {
      "epoch": 1.0467906418716257,
      "grad_norm": 0.09997299313545227,
      "learning_rate": 0.0001,
      "loss": 0.2035,
      "step": 698
    },
    {
      "epoch": 1.0482903419316136,
      "grad_norm": 0.10017754137516022,
      "learning_rate": 0.0001,
      "loss": 0.213,
      "step": 699
    },
    {
      "epoch": 1.0497900419916018,
      "grad_norm": 0.09506789594888687,
      "learning_rate": 0.0001,
      "loss": 0.1976,
      "step": 700
    },
    {
      "epoch": 1.0512897420515896,
      "grad_norm": 0.10202042013406754,
      "learning_rate": 0.0001,
      "loss": 0.2085,
      "step": 701
    },
    {
      "epoch": 1.0527894421115778,
      "grad_norm": 0.09485720098018646,
      "learning_rate": 0.0001,
      "loss": 0.1982,
      "step": 702
    },
    {
      "epoch": 1.0542891421715657,
      "grad_norm": 0.11826958507299423,
      "learning_rate": 0.0001,
      "loss": 0.2195,
      "step": 703
    },
    {
      "epoch": 1.0557888422315538,
      "grad_norm": 0.10373808443546295,
      "learning_rate": 0.0001,
      "loss": 0.187,
      "step": 704
    },
    {
      "epoch": 1.0572885422915417,
      "grad_norm": 0.09612619131803513,
      "learning_rate": 0.0001,
      "loss": 0.2031,
      "step": 705
    },
    {
      "epoch": 1.0587882423515298,
      "grad_norm": 0.13040052354335785,
      "learning_rate": 0.0001,
      "loss": 0.2203,
      "step": 706
    },
    {
      "epoch": 1.0602879424115177,
      "grad_norm": 0.1223352774977684,
      "learning_rate": 0.0001,
      "loss": 0.2084,
      "step": 707
    },
    {
      "epoch": 1.0617876424715056,
      "grad_norm": 0.1132684275507927,
      "learning_rate": 0.0001,
      "loss": 0.2178,
      "step": 708
    },
    {
      "epoch": 1.0632873425314937,
      "grad_norm": 0.10137873888015747,
      "learning_rate": 0.0001,
      "loss": 0.1963,
      "step": 709
    },
    {
      "epoch": 1.0647870425914816,
      "grad_norm": 0.11092538386583328,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 710
    },
    {
      "epoch": 1.0662867426514697,
      "grad_norm": 0.09947462379932404,
      "learning_rate": 0.0001,
      "loss": 0.1832,
      "step": 711
    },
    {
      "epoch": 1.0677864427114576,
      "grad_norm": 0.09458329528570175,
      "learning_rate": 0.0001,
      "loss": 0.18,
      "step": 712
    },
    {
      "epoch": 1.0692861427714457,
      "grad_norm": 0.11734294146299362,
      "learning_rate": 0.0001,
      "loss": 0.2083,
      "step": 713
    },
    {
      "epoch": 1.0707858428314336,
      "grad_norm": 0.1162252351641655,
      "learning_rate": 0.0001,
      "loss": 0.204,
      "step": 714
    },
    {
      "epoch": 1.0722855428914218,
      "grad_norm": 0.10471382737159729,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 715
    },
    {
      "epoch": 1.0737852429514096,
      "grad_norm": 0.10720207542181015,
      "learning_rate": 0.0001,
      "loss": 0.22,
      "step": 716
    },
    {
      "epoch": 1.0752849430113978,
      "grad_norm": 0.09570835530757904,
      "learning_rate": 0.0001,
      "loss": 0.1873,
      "step": 717
    },
    {
      "epoch": 1.0767846430713857,
      "grad_norm": 0.10967452824115753,
      "learning_rate": 0.0001,
      "loss": 0.2177,
      "step": 718
    },
    {
      "epoch": 1.0782843431313738,
      "grad_norm": 0.09294285625219345,
      "learning_rate": 0.0001,
      "loss": 0.1937,
      "step": 719
    },
    {
      "epoch": 1.0797840431913617,
      "grad_norm": 0.09752833843231201,
      "learning_rate": 0.0001,
      "loss": 0.1883,
      "step": 720
    },
    {
      "epoch": 1.0812837432513498,
      "grad_norm": 0.10718708485364914,
      "learning_rate": 0.0001,
      "loss": 0.1944,
      "step": 721
    },
    {
      "epoch": 1.0827834433113377,
      "grad_norm": 0.11237362772226334,
      "learning_rate": 0.0001,
      "loss": 0.2037,
      "step": 722
    },
    {
      "epoch": 1.0842831433713258,
      "grad_norm": 0.117605060338974,
      "learning_rate": 0.0001,
      "loss": 0.2235,
      "step": 723
    },
    {
      "epoch": 1.0857828434313137,
      "grad_norm": 0.12171958386898041,
      "learning_rate": 0.0001,
      "loss": 0.2117,
      "step": 724
    },
    {
      "epoch": 1.0872825434913018,
      "grad_norm": 0.11466312408447266,
      "learning_rate": 0.0001,
      "loss": 0.2046,
      "step": 725
    },
    {
      "epoch": 1.0887822435512897,
      "grad_norm": 0.1124361902475357,
      "learning_rate": 0.0001,
      "loss": 0.1991,
      "step": 726
    },
    {
      "epoch": 1.0902819436112778,
      "grad_norm": 0.12797339260578156,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 727
    },
    {
      "epoch": 1.0917816436712657,
      "grad_norm": 0.10693783313035965,
      "learning_rate": 0.0001,
      "loss": 0.1969,
      "step": 728
    },
    {
      "epoch": 1.0932813437312539,
      "grad_norm": 0.12097852677106857,
      "learning_rate": 0.0001,
      "loss": 0.2006,
      "step": 729
    },
    {
      "epoch": 1.0947810437912417,
      "grad_norm": 0.11136521399021149,
      "learning_rate": 0.0001,
      "loss": 0.1919,
      "step": 730
    },
    {
      "epoch": 1.0962807438512296,
      "grad_norm": 0.11446967720985413,
      "learning_rate": 0.0001,
      "loss": 0.2039,
      "step": 731
    },
    {
      "epoch": 1.0977804439112178,
      "grad_norm": 0.10717547684907913,
      "learning_rate": 0.0001,
      "loss": 0.207,
      "step": 732
    },
    {
      "epoch": 1.0992801439712057,
      "grad_norm": 0.4153926372528076,
      "learning_rate": 0.0001,
      "loss": 0.1882,
      "step": 733
    },
    {
      "epoch": 1.1007798440311938,
      "grad_norm": 0.11019565165042877,
      "learning_rate": 0.0001,
      "loss": 0.208,
      "step": 734
    },
    {
      "epoch": 1.1022795440911817,
      "grad_norm": 0.14103636145591736,
      "learning_rate": 0.0001,
      "loss": 0.2092,
      "step": 735
    },
    {
      "epoch": 1.1037792441511698,
      "grad_norm": 0.10301101952791214,
      "learning_rate": 0.0001,
      "loss": 0.2038,
      "step": 736
    },
    {
      "epoch": 1.1052789442111577,
      "grad_norm": 0.10129426419734955,
      "learning_rate": 0.0001,
      "loss": 0.2043,
      "step": 737
    },
    {
      "epoch": 1.1067786442711458,
      "grad_norm": 0.11969094723463058,
      "learning_rate": 0.0001,
      "loss": 0.1981,
      "step": 738
    },
    {
      "epoch": 1.1082783443311337,
      "grad_norm": 0.1532634049654007,
      "learning_rate": 0.0001,
      "loss": 0.2033,
      "step": 739
    },
    {
      "epoch": 1.1097780443911218,
      "grad_norm": 0.09960220009088516,
      "learning_rate": 0.0001,
      "loss": 0.2018,
      "step": 740
    },
    {
      "epoch": 1.1112777444511097,
      "grad_norm": 0.10730153322219849,
      "learning_rate": 0.0001,
      "loss": 0.2008,
      "step": 741
    },
    {
      "epoch": 1.1127774445110978,
      "grad_norm": 0.10244554281234741,
      "learning_rate": 0.0001,
      "loss": 0.1929,
      "step": 742
    },
    {
      "epoch": 1.1142771445710857,
      "grad_norm": 0.23599091172218323,
      "learning_rate": 0.0001,
      "loss": 0.1986,
      "step": 743
    },
    {
      "epoch": 1.1157768446310738,
      "grad_norm": 0.09506803750991821,
      "learning_rate": 0.0001,
      "loss": 0.2008,
      "step": 744
    },
    {
      "epoch": 1.1172765446910617,
      "grad_norm": 0.1106702908873558,
      "learning_rate": 0.0001,
      "loss": 0.2101,
      "step": 745
    },
    {
      "epoch": 1.1187762447510499,
      "grad_norm": 0.13316047191619873,
      "learning_rate": 0.0001,
      "loss": 0.2083,
      "step": 746
    },
    {
      "epoch": 1.1202759448110378,
      "grad_norm": 0.11539255082607269,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 747
    },
    {
      "epoch": 1.1217756448710259,
      "grad_norm": 0.10636559128761292,
      "learning_rate": 0.0001,
      "loss": 0.1976,
      "step": 748
    },
    {
      "epoch": 1.1232753449310138,
      "grad_norm": 0.12207210808992386,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 749
    },
    {
      "epoch": 1.124775044991002,
      "grad_norm": 0.14151808619499207,
      "learning_rate": 0.0001,
      "loss": 0.198,
      "step": 750
    },
    {
      "epoch": 1.1262747450509898,
      "grad_norm": 0.11145424097776413,
      "learning_rate": 0.0001,
      "loss": 0.2122,
      "step": 751
    },
    {
      "epoch": 1.127774445110978,
      "grad_norm": 0.10529693961143494,
      "learning_rate": 0.0001,
      "loss": 0.191,
      "step": 752
    },
    {
      "epoch": 1.1292741451709658,
      "grad_norm": 0.1143224760890007,
      "learning_rate": 0.0001,
      "loss": 0.2069,
      "step": 753
    },
    {
      "epoch": 1.1307738452309537,
      "grad_norm": 0.12582477927207947,
      "learning_rate": 0.0001,
      "loss": 0.2067,
      "step": 754
    },
    {
      "epoch": 1.1322735452909418,
      "grad_norm": 0.09768662601709366,
      "learning_rate": 0.0001,
      "loss": 0.2115,
      "step": 755
    },
    {
      "epoch": 1.13377324535093,
      "grad_norm": 0.10552249103784561,
      "learning_rate": 0.0001,
      "loss": 0.1973,
      "step": 756
    },
    {
      "epoch": 1.1352729454109178,
      "grad_norm": 0.1133885458111763,
      "learning_rate": 0.0001,
      "loss": 0.1885,
      "step": 757
    },
    {
      "epoch": 1.1367726454709057,
      "grad_norm": 0.1337568610906601,
      "learning_rate": 0.0001,
      "loss": 0.2042,
      "step": 758
    },
    {
      "epoch": 1.1382723455308938,
      "grad_norm": 0.09513892233371735,
      "learning_rate": 0.0001,
      "loss": 0.2039,
      "step": 759
    },
    {
      "epoch": 1.1397720455908817,
      "grad_norm": 0.11730632185935974,
      "learning_rate": 0.0001,
      "loss": 0.2272,
      "step": 760
    },
    {
      "epoch": 1.1412717456508699,
      "grad_norm": 0.10778386145830154,
      "learning_rate": 0.0001,
      "loss": 0.1804,
      "step": 761
    },
    {
      "epoch": 1.1427714457108578,
      "grad_norm": 0.11883397400379181,
      "learning_rate": 0.0001,
      "loss": 0.2177,
      "step": 762
    },
    {
      "epoch": 1.1442711457708459,
      "grad_norm": 0.10344803333282471,
      "learning_rate": 0.0001,
      "loss": 0.2099,
      "step": 763
    },
    {
      "epoch": 1.1457708458308338,
      "grad_norm": 0.10207268595695496,
      "learning_rate": 0.0001,
      "loss": 0.1956,
      "step": 764
    },
    {
      "epoch": 1.147270545890822,
      "grad_norm": 0.10869120061397552,
      "learning_rate": 0.0001,
      "loss": 0.2071,
      "step": 765
    },
    {
      "epoch": 1.1487702459508098,
      "grad_norm": 0.10452272742986679,
      "learning_rate": 0.0001,
      "loss": 0.217,
      "step": 766
    },
    {
      "epoch": 1.150269946010798,
      "grad_norm": 0.12717625498771667,
      "learning_rate": 0.0001,
      "loss": 0.1883,
      "step": 767
    },
    {
      "epoch": 1.1517696460707858,
      "grad_norm": 0.1096065416932106,
      "learning_rate": 0.0001,
      "loss": 0.1975,
      "step": 768
    },
    {
      "epoch": 1.153269346130774,
      "grad_norm": 0.13149043917655945,
      "learning_rate": 0.0001,
      "loss": 0.2229,
      "step": 769
    },
    {
      "epoch": 1.1547690461907618,
      "grad_norm": 0.11132325977087021,
      "learning_rate": 0.0001,
      "loss": 0.1916,
      "step": 770
    },
    {
      "epoch": 1.15626874625075,
      "grad_norm": 0.10703526437282562,
      "learning_rate": 0.0001,
      "loss": 0.2015,
      "step": 771
    },
    {
      "epoch": 1.1577684463107378,
      "grad_norm": 0.09721414744853973,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 772
    },
    {
      "epoch": 1.159268146370726,
      "grad_norm": 0.11006925255060196,
      "learning_rate": 0.0001,
      "loss": 0.1968,
      "step": 773
    },
    {
      "epoch": 1.1607678464307138,
      "grad_norm": 0.09593189507722855,
      "learning_rate": 0.0001,
      "loss": 0.2071,
      "step": 774
    },
    {
      "epoch": 1.162267546490702,
      "grad_norm": 0.10958406329154968,
      "learning_rate": 0.0001,
      "loss": 0.2033,
      "step": 775
    },
    {
      "epoch": 1.1637672465506899,
      "grad_norm": 0.10951817780733109,
      "learning_rate": 0.0001,
      "loss": 0.205,
      "step": 776
    },
    {
      "epoch": 1.1652669466106778,
      "grad_norm": 0.11191409826278687,
      "learning_rate": 0.0001,
      "loss": 0.1927,
      "step": 777
    },
    {
      "epoch": 1.1667666466706659,
      "grad_norm": 0.11065131425857544,
      "learning_rate": 0.0001,
      "loss": 0.2039,
      "step": 778
    },
    {
      "epoch": 1.168266346730654,
      "grad_norm": 0.10997838526964188,
      "learning_rate": 0.0001,
      "loss": 0.207,
      "step": 779
    },
    {
      "epoch": 1.169766046790642,
      "grad_norm": 0.13593043386936188,
      "learning_rate": 0.0001,
      "loss": 0.2094,
      "step": 780
    },
    {
      "epoch": 1.1712657468506298,
      "grad_norm": 0.12191814929246902,
      "learning_rate": 0.0001,
      "loss": 0.2174,
      "step": 781
    },
    {
      "epoch": 1.172765446910618,
      "grad_norm": 0.12122606486082077,
      "learning_rate": 0.0001,
      "loss": 0.1991,
      "step": 782
    },
    {
      "epoch": 1.1742651469706058,
      "grad_norm": 0.1198469027876854,
      "learning_rate": 0.0001,
      "loss": 0.1804,
      "step": 783
    },
    {
      "epoch": 1.175764847030594,
      "grad_norm": 0.11640792340040207,
      "learning_rate": 0.0001,
      "loss": 0.215,
      "step": 784
    },
    {
      "epoch": 1.1772645470905818,
      "grad_norm": 0.11680804938077927,
      "learning_rate": 0.0001,
      "loss": 0.1953,
      "step": 785
    },
    {
      "epoch": 1.17876424715057,
      "grad_norm": 0.10138914734125137,
      "learning_rate": 0.0001,
      "loss": 0.201,
      "step": 786
    },
    {
      "epoch": 1.1802639472105578,
      "grad_norm": 0.11702467501163483,
      "learning_rate": 0.0001,
      "loss": 0.1979,
      "step": 787
    },
    {
      "epoch": 1.181763647270546,
      "grad_norm": 0.11510789394378662,
      "learning_rate": 0.0001,
      "loss": 0.1983,
      "step": 788
    },
    {
      "epoch": 1.1832633473305338,
      "grad_norm": 0.11448107659816742,
      "learning_rate": 0.0001,
      "loss": 0.1915,
      "step": 789
    },
    {
      "epoch": 1.184763047390522,
      "grad_norm": 0.10550883412361145,
      "learning_rate": 0.0001,
      "loss": 0.1927,
      "step": 790
    },
    {
      "epoch": 1.1862627474505099,
      "grad_norm": 0.13387718796730042,
      "learning_rate": 0.0001,
      "loss": 0.201,
      "step": 791
    },
    {
      "epoch": 1.187762447510498,
      "grad_norm": 0.1244794949889183,
      "learning_rate": 0.0001,
      "loss": 0.2029,
      "step": 792
    },
    {
      "epoch": 1.1892621475704859,
      "grad_norm": 0.11076033115386963,
      "learning_rate": 0.0001,
      "loss": 0.19,
      "step": 793
    },
    {
      "epoch": 1.190761847630474,
      "grad_norm": 0.11523863673210144,
      "learning_rate": 0.0001,
      "loss": 0.2102,
      "step": 794
    },
    {
      "epoch": 1.1922615476904619,
      "grad_norm": 0.13429993391036987,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 795
    },
    {
      "epoch": 1.19376124775045,
      "grad_norm": 0.11990522593259811,
      "learning_rate": 0.0001,
      "loss": 0.2001,
      "step": 796
    },
    {
      "epoch": 1.195260947810438,
      "grad_norm": 0.11580351740121841,
      "learning_rate": 0.0001,
      "loss": 0.1984,
      "step": 797
    },
    {
      "epoch": 1.196760647870426,
      "grad_norm": 0.129403218626976,
      "learning_rate": 0.0001,
      "loss": 0.1965,
      "step": 798
    },
    {
      "epoch": 1.198260347930414,
      "grad_norm": 0.12258351594209671,
      "learning_rate": 0.0001,
      "loss": 0.1929,
      "step": 799
    },
    {
      "epoch": 1.1997600479904018,
      "grad_norm": 0.11552591621875763,
      "learning_rate": 0.0001,
      "loss": 0.1826,
      "step": 800
    },
    {
      "epoch": 1.20125974805039,
      "grad_norm": 0.15154597163200378,
      "learning_rate": 0.0001,
      "loss": 0.2066,
      "step": 801
    },
    {
      "epoch": 1.202759448110378,
      "grad_norm": 0.12220919132232666,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 802
    },
    {
      "epoch": 1.204259148170366,
      "grad_norm": 0.12219547480344772,
      "learning_rate": 0.0001,
      "loss": 0.2075,
      "step": 803
    },
    {
      "epoch": 1.2057588482303538,
      "grad_norm": 0.11765708774328232,
      "learning_rate": 0.0001,
      "loss": 0.2238,
      "step": 804
    },
    {
      "epoch": 1.207258548290342,
      "grad_norm": 0.13192202150821686,
      "learning_rate": 0.0001,
      "loss": 0.2033,
      "step": 805
    },
    {
      "epoch": 1.2087582483503299,
      "grad_norm": 0.1165715754032135,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 806
    },
    {
      "epoch": 1.210257948410318,
      "grad_norm": 0.12215811759233475,
      "learning_rate": 0.0001,
      "loss": 0.1958,
      "step": 807
    },
    {
      "epoch": 1.2117576484703059,
      "grad_norm": 0.11831729859113693,
      "learning_rate": 0.0001,
      "loss": 0.2108,
      "step": 808
    },
    {
      "epoch": 1.213257348530294,
      "grad_norm": 0.11861737817525864,
      "learning_rate": 0.0001,
      "loss": 0.2067,
      "step": 809
    },
    {
      "epoch": 1.2147570485902819,
      "grad_norm": 0.10833084583282471,
      "learning_rate": 0.0001,
      "loss": 0.2061,
      "step": 810
    },
    {
      "epoch": 1.21625674865027,
      "grad_norm": 0.10521286725997925,
      "learning_rate": 0.0001,
      "loss": 0.2121,
      "step": 811
    },
    {
      "epoch": 1.217756448710258,
      "grad_norm": 0.09993214905261993,
      "learning_rate": 0.0001,
      "loss": 0.211,
      "step": 812
    },
    {
      "epoch": 1.219256148770246,
      "grad_norm": 0.11411543190479279,
      "learning_rate": 0.0001,
      "loss": 0.2011,
      "step": 813
    },
    {
      "epoch": 1.220755848830234,
      "grad_norm": 0.11373306810855865,
      "learning_rate": 0.0001,
      "loss": 0.1981,
      "step": 814
    },
    {
      "epoch": 1.222255548890222,
      "grad_norm": 0.10713420808315277,
      "learning_rate": 0.0001,
      "loss": 0.1941,
      "step": 815
    },
    {
      "epoch": 1.22375524895021,
      "grad_norm": 0.08978057652711868,
      "learning_rate": 0.0001,
      "loss": 0.1908,
      "step": 816
    },
    {
      "epoch": 1.225254949010198,
      "grad_norm": 0.10181733965873718,
      "learning_rate": 0.0001,
      "loss": 0.1926,
      "step": 817
    },
    {
      "epoch": 1.226754649070186,
      "grad_norm": 0.15292827785015106,
      "learning_rate": 0.0001,
      "loss": 0.2031,
      "step": 818
    },
    {
      "epoch": 1.228254349130174,
      "grad_norm": 0.11882085353136063,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 819
    },
    {
      "epoch": 1.229754049190162,
      "grad_norm": 0.12997321784496307,
      "learning_rate": 0.0001,
      "loss": 0.2049,
      "step": 820
    },
    {
      "epoch": 1.23125374925015,
      "grad_norm": 0.1299426108598709,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 821
    },
    {
      "epoch": 1.232753449310138,
      "grad_norm": 0.1448882669210434,
      "learning_rate": 0.0001,
      "loss": 0.1982,
      "step": 822
    },
    {
      "epoch": 1.2342531493701259,
      "grad_norm": 0.10653743147850037,
      "learning_rate": 0.0001,
      "loss": 0.1984,
      "step": 823
    },
    {
      "epoch": 1.235752849430114,
      "grad_norm": 0.12568436563014984,
      "learning_rate": 0.0001,
      "loss": 0.2016,
      "step": 824
    },
    {
      "epoch": 1.2372525494901019,
      "grad_norm": 0.11354783177375793,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 825
    },
    {
      "epoch": 1.23875224955009,
      "grad_norm": 0.12415360659360886,
      "learning_rate": 0.0001,
      "loss": 0.1943,
      "step": 826
    },
    {
      "epoch": 1.240251949610078,
      "grad_norm": 0.10278019309043884,
      "learning_rate": 0.0001,
      "loss": 0.1874,
      "step": 827
    },
    {
      "epoch": 1.241751649670066,
      "grad_norm": 0.09319662302732468,
      "learning_rate": 0.0001,
      "loss": 0.1957,
      "step": 828
    },
    {
      "epoch": 1.243251349730054,
      "grad_norm": 0.10172494500875473,
      "learning_rate": 0.0001,
      "loss": 0.2197,
      "step": 829
    },
    {
      "epoch": 1.244751049790042,
      "grad_norm": 0.10974248498678207,
      "learning_rate": 0.0001,
      "loss": 0.1802,
      "step": 830
    },
    {
      "epoch": 1.24625074985003,
      "grad_norm": 0.11459394544363022,
      "learning_rate": 0.0001,
      "loss": 0.2093,
      "step": 831
    },
    {
      "epoch": 1.247750449910018,
      "grad_norm": 0.10812684893608093,
      "learning_rate": 0.0001,
      "loss": 0.2006,
      "step": 832
    },
    {
      "epoch": 1.249250149970006,
      "grad_norm": 0.11783980578184128,
      "learning_rate": 0.0001,
      "loss": 0.2031,
      "step": 833
    },
    {
      "epoch": 1.250749850029994,
      "grad_norm": 0.10701319575309753,
      "learning_rate": 0.0001,
      "loss": 0.1844,
      "step": 834
    },
    {
      "epoch": 1.252249550089982,
      "grad_norm": 0.12008558958768845,
      "learning_rate": 0.0001,
      "loss": 0.2075,
      "step": 835
    },
    {
      "epoch": 1.25374925014997,
      "grad_norm": 0.11636258661746979,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 836
    },
    {
      "epoch": 1.255248950209958,
      "grad_norm": 0.12278249859809875,
      "learning_rate": 0.0001,
      "loss": 0.2005,
      "step": 837
    },
    {
      "epoch": 1.256748650269946,
      "grad_norm": 0.1055331751704216,
      "learning_rate": 0.0001,
      "loss": 0.2014,
      "step": 838
    },
    {
      "epoch": 1.258248350329934,
      "grad_norm": 0.11794504523277283,
      "learning_rate": 0.0001,
      "loss": 0.2005,
      "step": 839
    },
    {
      "epoch": 1.259748050389922,
      "grad_norm": 0.133458212018013,
      "learning_rate": 0.0001,
      "loss": 0.2024,
      "step": 840
    },
    {
      "epoch": 1.26124775044991,
      "grad_norm": 0.11795482784509659,
      "learning_rate": 0.0001,
      "loss": 0.2053,
      "step": 841
    },
    {
      "epoch": 1.262747450509898,
      "grad_norm": 0.22990107536315918,
      "learning_rate": 0.0001,
      "loss": 0.2022,
      "step": 842
    },
    {
      "epoch": 1.264247150569886,
      "grad_norm": 0.12045731395483017,
      "learning_rate": 0.0001,
      "loss": 0.1968,
      "step": 843
    },
    {
      "epoch": 1.2657468506298741,
      "grad_norm": 0.13097703456878662,
      "learning_rate": 0.0001,
      "loss": 0.21,
      "step": 844
    },
    {
      "epoch": 1.267246550689862,
      "grad_norm": 0.10190587490797043,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 845
    },
    {
      "epoch": 1.26874625074985,
      "grad_norm": 0.11652450263500214,
      "learning_rate": 0.0001,
      "loss": 0.1961,
      "step": 846
    },
    {
      "epoch": 1.270245950809838,
      "grad_norm": 0.11213372647762299,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 847
    },
    {
      "epoch": 1.2717456508698262,
      "grad_norm": 0.10041152685880661,
      "learning_rate": 0.0001,
      "loss": 0.2015,
      "step": 848
    },
    {
      "epoch": 1.273245350929814,
      "grad_norm": 0.11175209283828735,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 849
    },
    {
      "epoch": 1.274745050989802,
      "grad_norm": 0.08981194347143173,
      "learning_rate": 0.0001,
      "loss": 0.1797,
      "step": 850
    },
    {
      "epoch": 1.27624475104979,
      "grad_norm": 0.11341321468353271,
      "learning_rate": 0.0001,
      "loss": 0.202,
      "step": 851
    },
    {
      "epoch": 1.277744451109778,
      "grad_norm": 0.18110430240631104,
      "learning_rate": 0.0001,
      "loss": 0.2342,
      "step": 852
    },
    {
      "epoch": 1.279244151169766,
      "grad_norm": 0.11384833604097366,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 853
    },
    {
      "epoch": 1.280743851229754,
      "grad_norm": 0.09193257987499237,
      "learning_rate": 0.0001,
      "loss": 0.1834,
      "step": 854
    },
    {
      "epoch": 1.282243551289742,
      "grad_norm": 0.1364949494600296,
      "learning_rate": 0.0001,
      "loss": 0.2123,
      "step": 855
    },
    {
      "epoch": 1.28374325134973,
      "grad_norm": 0.12111320346593857,
      "learning_rate": 0.0001,
      "loss": 0.2039,
      "step": 856
    },
    {
      "epoch": 1.2852429514097181,
      "grad_norm": 0.1618933379650116,
      "learning_rate": 0.0001,
      "loss": 0.2007,
      "step": 857
    },
    {
      "epoch": 1.286742651469706,
      "grad_norm": 0.13835221529006958,
      "learning_rate": 0.0001,
      "loss": 0.2126,
      "step": 858
    },
    {
      "epoch": 1.2882423515296941,
      "grad_norm": 0.11768801510334015,
      "learning_rate": 0.0001,
      "loss": 0.2051,
      "step": 859
    },
    {
      "epoch": 1.289742051589682,
      "grad_norm": 0.1135028749704361,
      "learning_rate": 0.0001,
      "loss": 0.2097,
      "step": 860
    },
    {
      "epoch": 1.2912417516496701,
      "grad_norm": 0.26141756772994995,
      "learning_rate": 0.0001,
      "loss": 0.2167,
      "step": 861
    },
    {
      "epoch": 1.292741451709658,
      "grad_norm": 0.11911439150571823,
      "learning_rate": 0.0001,
      "loss": 0.206,
      "step": 862
    },
    {
      "epoch": 1.2942411517696462,
      "grad_norm": 0.11943168938159943,
      "learning_rate": 0.0001,
      "loss": 0.2099,
      "step": 863
    },
    {
      "epoch": 1.295740851829634,
      "grad_norm": 0.12360996752977371,
      "learning_rate": 0.0001,
      "loss": 0.196,
      "step": 864
    },
    {
      "epoch": 1.297240551889622,
      "grad_norm": 0.1209695041179657,
      "learning_rate": 0.0001,
      "loss": 0.1934,
      "step": 865
    },
    {
      "epoch": 1.29874025194961,
      "grad_norm": 0.1190091222524643,
      "learning_rate": 0.0001,
      "loss": 0.1927,
      "step": 866
    },
    {
      "epoch": 1.3002399520095982,
      "grad_norm": 0.10614921152591705,
      "learning_rate": 0.0001,
      "loss": 0.2114,
      "step": 867
    },
    {
      "epoch": 1.301739652069586,
      "grad_norm": 0.09546952694654465,
      "learning_rate": 0.0001,
      "loss": 0.189,
      "step": 868
    },
    {
      "epoch": 1.303239352129574,
      "grad_norm": 0.10687445104122162,
      "learning_rate": 0.0001,
      "loss": 0.2095,
      "step": 869
    },
    {
      "epoch": 1.304739052189562,
      "grad_norm": 0.10205111652612686,
      "learning_rate": 0.0001,
      "loss": 0.2029,
      "step": 870
    },
    {
      "epoch": 1.3062387522495502,
      "grad_norm": 0.09076555073261261,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 871
    },
    {
      "epoch": 1.3077384523095381,
      "grad_norm": 0.12075765430927277,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 872
    },
    {
      "epoch": 1.309238152369526,
      "grad_norm": 0.12099923938512802,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 873
    },
    {
      "epoch": 1.3107378524295141,
      "grad_norm": 0.11629250645637512,
      "learning_rate": 0.0001,
      "loss": 0.2005,
      "step": 874
    },
    {
      "epoch": 1.312237552489502,
      "grad_norm": 0.11975374817848206,
      "learning_rate": 0.0001,
      "loss": 0.2143,
      "step": 875
    },
    {
      "epoch": 1.3137372525494901,
      "grad_norm": 0.11761780828237534,
      "learning_rate": 0.0001,
      "loss": 0.2087,
      "step": 876
    },
    {
      "epoch": 1.315236952609478,
      "grad_norm": 0.13094201683998108,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 877
    },
    {
      "epoch": 1.3167366526694662,
      "grad_norm": 0.0970563068985939,
      "learning_rate": 0.0001,
      "loss": 0.1942,
      "step": 878
    },
    {
      "epoch": 1.318236352729454,
      "grad_norm": 0.13384754955768585,
      "learning_rate": 0.0001,
      "loss": 0.2014,
      "step": 879
    },
    {
      "epoch": 1.3197360527894422,
      "grad_norm": 0.10388736426830292,
      "learning_rate": 0.0001,
      "loss": 0.1972,
      "step": 880
    },
    {
      "epoch": 1.32123575284943,
      "grad_norm": 0.10865961015224457,
      "learning_rate": 0.0001,
      "loss": 0.2065,
      "step": 881
    },
    {
      "epoch": 1.3227354529094182,
      "grad_norm": 0.11909016966819763,
      "learning_rate": 0.0001,
      "loss": 0.1929,
      "step": 882
    },
    {
      "epoch": 1.324235152969406,
      "grad_norm": 0.10415627807378769,
      "learning_rate": 0.0001,
      "loss": 0.2081,
      "step": 883
    },
    {
      "epoch": 1.3257348530293942,
      "grad_norm": 0.10801493376493454,
      "learning_rate": 0.0001,
      "loss": 0.2001,
      "step": 884
    },
    {
      "epoch": 1.327234553089382,
      "grad_norm": 0.10181765258312225,
      "learning_rate": 0.0001,
      "loss": 0.1963,
      "step": 885
    },
    {
      "epoch": 1.3287342531493702,
      "grad_norm": 0.10515677183866501,
      "learning_rate": 0.0001,
      "loss": 0.1975,
      "step": 886
    },
    {
      "epoch": 1.330233953209358,
      "grad_norm": 0.0975591242313385,
      "learning_rate": 0.0001,
      "loss": 0.196,
      "step": 887
    },
    {
      "epoch": 1.331733653269346,
      "grad_norm": 0.10833294689655304,
      "learning_rate": 0.0001,
      "loss": 0.2149,
      "step": 888
    },
    {
      "epoch": 1.3332333533293341,
      "grad_norm": 0.10088454186916351,
      "learning_rate": 0.0001,
      "loss": 0.1876,
      "step": 889
    },
    {
      "epoch": 1.3347330533893222,
      "grad_norm": 0.12816467881202698,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 890
    },
    {
      "epoch": 1.3362327534493101,
      "grad_norm": 0.10551926493644714,
      "learning_rate": 0.0001,
      "loss": 0.2073,
      "step": 891
    },
    {
      "epoch": 1.337732453509298,
      "grad_norm": 0.09666023403406143,
      "learning_rate": 0.0001,
      "loss": 0.1836,
      "step": 892
    },
    {
      "epoch": 1.3392321535692862,
      "grad_norm": 0.1016993299126625,
      "learning_rate": 0.0001,
      "loss": 0.2092,
      "step": 893
    },
    {
      "epoch": 1.3407318536292743,
      "grad_norm": 0.10959242284297943,
      "learning_rate": 0.0001,
      "loss": 0.2086,
      "step": 894
    },
    {
      "epoch": 1.3422315536892622,
      "grad_norm": 0.09224661439657211,
      "learning_rate": 0.0001,
      "loss": 0.1836,
      "step": 895
    },
    {
      "epoch": 1.34373125374925,
      "grad_norm": 0.10146753489971161,
      "learning_rate": 0.0001,
      "loss": 0.1844,
      "step": 896
    },
    {
      "epoch": 1.3452309538092382,
      "grad_norm": 0.10552333295345306,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 897
    },
    {
      "epoch": 1.346730653869226,
      "grad_norm": 0.34665384888648987,
      "learning_rate": 0.0001,
      "loss": 0.2032,
      "step": 898
    },
    {
      "epoch": 1.3482303539292142,
      "grad_norm": 0.11349132657051086,
      "learning_rate": 0.0001,
      "loss": 0.2063,
      "step": 899
    },
    {
      "epoch": 1.349730053989202,
      "grad_norm": 0.13115718960762024,
      "learning_rate": 0.0001,
      "loss": 0.2078,
      "step": 900
    },
    {
      "epoch": 1.3512297540491902,
      "grad_norm": 0.11095144599676132,
      "learning_rate": 0.0001,
      "loss": 0.19,
      "step": 901
    },
    {
      "epoch": 1.352729454109178,
      "grad_norm": 0.12275856733322144,
      "learning_rate": 0.0001,
      "loss": 0.1916,
      "step": 902
    },
    {
      "epoch": 1.3542291541691662,
      "grad_norm": 0.10215585678815842,
      "learning_rate": 0.0001,
      "loss": 0.1898,
      "step": 903
    },
    {
      "epoch": 1.3557288542291541,
      "grad_norm": 0.10686856508255005,
      "learning_rate": 0.0001,
      "loss": 0.2004,
      "step": 904
    },
    {
      "epoch": 1.3572285542891422,
      "grad_norm": 0.11211936175823212,
      "learning_rate": 0.0001,
      "loss": 0.1959,
      "step": 905
    },
    {
      "epoch": 1.3587282543491301,
      "grad_norm": 0.1198093518614769,
      "learning_rate": 0.0001,
      "loss": 0.211,
      "step": 906
    },
    {
      "epoch": 1.3602279544091183,
      "grad_norm": 0.13104559481143951,
      "learning_rate": 0.0001,
      "loss": 0.2015,
      "step": 907
    },
    {
      "epoch": 1.3617276544691062,
      "grad_norm": 0.11749891936779022,
      "learning_rate": 0.0001,
      "loss": 0.2074,
      "step": 908
    },
    {
      "epoch": 1.3632273545290943,
      "grad_norm": 0.12649701535701752,
      "learning_rate": 0.0001,
      "loss": 0.2022,
      "step": 909
    },
    {
      "epoch": 1.3647270545890822,
      "grad_norm": 0.09378570318222046,
      "learning_rate": 0.0001,
      "loss": 0.1772,
      "step": 910
    },
    {
      "epoch": 1.36622675464907,
      "grad_norm": 0.09943436831235886,
      "learning_rate": 0.0001,
      "loss": 0.1811,
      "step": 911
    },
    {
      "epoch": 1.3677264547090582,
      "grad_norm": 0.11579127609729767,
      "learning_rate": 0.0001,
      "loss": 0.1991,
      "step": 912
    },
    {
      "epoch": 1.3692261547690463,
      "grad_norm": 0.12638461589813232,
      "learning_rate": 0.0001,
      "loss": 0.2043,
      "step": 913
    },
    {
      "epoch": 1.3707258548290342,
      "grad_norm": 0.1737283319234848,
      "learning_rate": 0.0001,
      "loss": 0.2045,
      "step": 914
    },
    {
      "epoch": 1.372225554889022,
      "grad_norm": 0.10054799914360046,
      "learning_rate": 0.0001,
      "loss": 0.2024,
      "step": 915
    },
    {
      "epoch": 1.3737252549490102,
      "grad_norm": 0.09999845176935196,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 916
    },
    {
      "epoch": 1.3752249550089983,
      "grad_norm": 0.11395849287509918,
      "learning_rate": 0.0001,
      "loss": 0.1999,
      "step": 917
    },
    {
      "epoch": 1.3767246550689862,
      "grad_norm": 0.10429885983467102,
      "learning_rate": 0.0001,
      "loss": 0.1862,
      "step": 918
    },
    {
      "epoch": 1.3782243551289741,
      "grad_norm": 0.10009761154651642,
      "learning_rate": 0.0001,
      "loss": 0.1946,
      "step": 919
    },
    {
      "epoch": 1.3797240551889622,
      "grad_norm": 0.10815049707889557,
      "learning_rate": 0.0001,
      "loss": 0.1968,
      "step": 920
    },
    {
      "epoch": 1.3812237552489501,
      "grad_norm": 0.10365433990955353,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 921
    },
    {
      "epoch": 1.3827234553089383,
      "grad_norm": 0.11359500139951706,
      "learning_rate": 0.0001,
      "loss": 0.208,
      "step": 922
    },
    {
      "epoch": 1.3842231553689262,
      "grad_norm": 0.11831419914960861,
      "learning_rate": 0.0001,
      "loss": 0.194,
      "step": 923
    },
    {
      "epoch": 1.3857228554289143,
      "grad_norm": 0.10930907726287842,
      "learning_rate": 0.0001,
      "loss": 0.205,
      "step": 924
    },
    {
      "epoch": 1.3872225554889022,
      "grad_norm": 0.24281424283981323,
      "learning_rate": 0.0001,
      "loss": 0.2138,
      "step": 925
    },
    {
      "epoch": 1.3887222555488903,
      "grad_norm": 0.15396197140216827,
      "learning_rate": 0.0001,
      "loss": 0.1851,
      "step": 926
    },
    {
      "epoch": 1.3902219556088782,
      "grad_norm": 0.11007950454950333,
      "learning_rate": 0.0001,
      "loss": 0.2109,
      "step": 927
    },
    {
      "epoch": 1.3917216556688663,
      "grad_norm": 0.12872810661792755,
      "learning_rate": 0.0001,
      "loss": 0.1957,
      "step": 928
    },
    {
      "epoch": 1.3932213557288542,
      "grad_norm": 0.09379030764102936,
      "learning_rate": 0.0001,
      "loss": 0.199,
      "step": 929
    },
    {
      "epoch": 1.3947210557888423,
      "grad_norm": 0.10410824418067932,
      "learning_rate": 0.0001,
      "loss": 0.1901,
      "step": 930
    },
    {
      "epoch": 1.3962207558488302,
      "grad_norm": 0.1111748144030571,
      "learning_rate": 0.0001,
      "loss": 0.214,
      "step": 931
    },
    {
      "epoch": 1.3977204559088183,
      "grad_norm": 0.11189530789852142,
      "learning_rate": 0.0001,
      "loss": 0.2032,
      "step": 932
    },
    {
      "epoch": 1.3992201559688062,
      "grad_norm": 0.11914942413568497,
      "learning_rate": 0.0001,
      "loss": 0.2004,
      "step": 933
    },
    {
      "epoch": 1.4007198560287941,
      "grad_norm": 0.13494639098644257,
      "learning_rate": 0.0001,
      "loss": 0.2051,
      "step": 934
    },
    {
      "epoch": 1.4022195560887822,
      "grad_norm": 0.10507574677467346,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 935
    },
    {
      "epoch": 1.4037192561487704,
      "grad_norm": 0.10706467181444168,
      "learning_rate": 0.0001,
      "loss": 0.1967,
      "step": 936
    },
    {
      "epoch": 1.4052189562087583,
      "grad_norm": 0.1058003231883049,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 937
    },
    {
      "epoch": 1.4067186562687461,
      "grad_norm": 0.10474837571382523,
      "learning_rate": 0.0001,
      "loss": 0.199,
      "step": 938
    },
    {
      "epoch": 1.4082183563287343,
      "grad_norm": 0.09986995160579681,
      "learning_rate": 0.0001,
      "loss": 0.2002,
      "step": 939
    },
    {
      "epoch": 1.4097180563887224,
      "grad_norm": 0.11146565526723862,
      "learning_rate": 0.0001,
      "loss": 0.1946,
      "step": 940
    },
    {
      "epoch": 1.4112177564487103,
      "grad_norm": 0.12571671605110168,
      "learning_rate": 0.0001,
      "loss": 0.2013,
      "step": 941
    },
    {
      "epoch": 1.4127174565086982,
      "grad_norm": 0.09720286726951599,
      "learning_rate": 0.0001,
      "loss": 0.2173,
      "step": 942
    },
    {
      "epoch": 1.4142171565686863,
      "grad_norm": 0.10739162564277649,
      "learning_rate": 0.0001,
      "loss": 0.1999,
      "step": 943
    },
    {
      "epoch": 1.4157168566286742,
      "grad_norm": 0.09833894670009613,
      "learning_rate": 0.0001,
      "loss": 0.1993,
      "step": 944
    },
    {
      "epoch": 1.4172165566886623,
      "grad_norm": 0.09398502111434937,
      "learning_rate": 0.0001,
      "loss": 0.206,
      "step": 945
    },
    {
      "epoch": 1.4187162567486502,
      "grad_norm": 0.09647428244352341,
      "learning_rate": 0.0001,
      "loss": 0.2019,
      "step": 946
    },
    {
      "epoch": 1.4202159568086383,
      "grad_norm": 0.09907200932502747,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 947
    },
    {
      "epoch": 1.4217156568686262,
      "grad_norm": 0.1218380331993103,
      "learning_rate": 0.0001,
      "loss": 0.2073,
      "step": 948
    },
    {
      "epoch": 1.4232153569286143,
      "grad_norm": 0.10969561338424683,
      "learning_rate": 0.0001,
      "loss": 0.1844,
      "step": 949
    },
    {
      "epoch": 1.4247150569886022,
      "grad_norm": 0.0996738150715828,
      "learning_rate": 0.0001,
      "loss": 0.1835,
      "step": 950
    },
    {
      "epoch": 1.4262147570485904,
      "grad_norm": 0.1251436173915863,
      "learning_rate": 0.0001,
      "loss": 0.2012,
      "step": 951
    },
    {
      "epoch": 1.4277144571085782,
      "grad_norm": 0.10463272780179977,
      "learning_rate": 0.0001,
      "loss": 0.1922,
      "step": 952
    },
    {
      "epoch": 1.4292141571685664,
      "grad_norm": 0.1118282675743103,
      "learning_rate": 0.0001,
      "loss": 0.1797,
      "step": 953
    },
    {
      "epoch": 1.4307138572285543,
      "grad_norm": 0.10038311034440994,
      "learning_rate": 0.0001,
      "loss": 0.189,
      "step": 954
    },
    {
      "epoch": 1.4322135572885424,
      "grad_norm": 0.10714021325111389,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 955
    },
    {
      "epoch": 1.4337132573485303,
      "grad_norm": 0.11542624980211258,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 956
    },
    {
      "epoch": 1.4352129574085182,
      "grad_norm": 0.17368446290493011,
      "learning_rate": 0.0001,
      "loss": 0.1849,
      "step": 957
    },
    {
      "epoch": 1.4367126574685063,
      "grad_norm": 0.11432772874832153,
      "learning_rate": 0.0001,
      "loss": 0.1933,
      "step": 958
    },
    {
      "epoch": 1.4382123575284944,
      "grad_norm": 0.12628276646137238,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 959
    },
    {
      "epoch": 1.4397120575884823,
      "grad_norm": 0.1216781809926033,
      "learning_rate": 0.0001,
      "loss": 0.2337,
      "step": 960
    },
    {
      "epoch": 1.4412117576484702,
      "grad_norm": 0.10746436566114426,
      "learning_rate": 0.0001,
      "loss": 0.2116,
      "step": 961
    },
    {
      "epoch": 1.4427114577084583,
      "grad_norm": 0.12093575298786163,
      "learning_rate": 0.0001,
      "loss": 0.1836,
      "step": 962
    },
    {
      "epoch": 1.4442111577684464,
      "grad_norm": 0.10200843960046768,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 963
    },
    {
      "epoch": 1.4457108578284343,
      "grad_norm": 0.13177773356437683,
      "learning_rate": 0.0001,
      "loss": 0.2101,
      "step": 964
    },
    {
      "epoch": 1.4472105578884222,
      "grad_norm": 0.12215926498174667,
      "learning_rate": 0.0001,
      "loss": 0.2012,
      "step": 965
    },
    {
      "epoch": 1.4487102579484104,
      "grad_norm": 0.14263905584812164,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 966
    },
    {
      "epoch": 1.4502099580083982,
      "grad_norm": 0.11575612425804138,
      "learning_rate": 0.0001,
      "loss": 0.1945,
      "step": 967
    },
    {
      "epoch": 1.4517096580683864,
      "grad_norm": 0.12267445027828217,
      "learning_rate": 0.0001,
      "loss": 0.2058,
      "step": 968
    },
    {
      "epoch": 1.4532093581283743,
      "grad_norm": 0.10164536535739899,
      "learning_rate": 0.0001,
      "loss": 0.1877,
      "step": 969
    },
    {
      "epoch": 1.4547090581883624,
      "grad_norm": 0.1310695856809616,
      "learning_rate": 0.0001,
      "loss": 0.214,
      "step": 970
    },
    {
      "epoch": 1.4562087582483503,
      "grad_norm": 0.11177396029233932,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 971
    },
    {
      "epoch": 1.4577084583083384,
      "grad_norm": 0.10548507422208786,
      "learning_rate": 0.0001,
      "loss": 0.2018,
      "step": 972
    },
    {
      "epoch": 1.4592081583683263,
      "grad_norm": 0.0983460322022438,
      "learning_rate": 0.0001,
      "loss": 0.1848,
      "step": 973
    },
    {
      "epoch": 1.4607078584283144,
      "grad_norm": 0.10942801088094711,
      "learning_rate": 0.0001,
      "loss": 0.1986,
      "step": 974
    },
    {
      "epoch": 1.4622075584883023,
      "grad_norm": 0.09885673969984055,
      "learning_rate": 0.0001,
      "loss": 0.1963,
      "step": 975
    },
    {
      "epoch": 1.4637072585482904,
      "grad_norm": 0.1012670248746872,
      "learning_rate": 0.0001,
      "loss": 0.2028,
      "step": 976
    },
    {
      "epoch": 1.4652069586082783,
      "grad_norm": 0.12173286825418472,
      "learning_rate": 0.0001,
      "loss": 0.1969,
      "step": 977
    },
    {
      "epoch": 1.4667066586682664,
      "grad_norm": 0.1448233425617218,
      "learning_rate": 0.0001,
      "loss": 0.2134,
      "step": 978
    },
    {
      "epoch": 1.4682063587282543,
      "grad_norm": 0.11941632628440857,
      "learning_rate": 0.0001,
      "loss": 0.204,
      "step": 979
    },
    {
      "epoch": 1.4697060587882422,
      "grad_norm": 0.11326415091753006,
      "learning_rate": 0.0001,
      "loss": 0.2169,
      "step": 980
    },
    {
      "epoch": 1.4712057588482303,
      "grad_norm": 0.09973437339067459,
      "learning_rate": 0.0001,
      "loss": 0.2012,
      "step": 981
    },
    {
      "epoch": 1.4727054589082185,
      "grad_norm": 0.09796369075775146,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 982
    },
    {
      "epoch": 1.4742051589682064,
      "grad_norm": 0.0932525023818016,
      "learning_rate": 0.0001,
      "loss": 0.1822,
      "step": 983
    },
    {
      "epoch": 1.4757048590281943,
      "grad_norm": 0.11246270686388016,
      "learning_rate": 0.0001,
      "loss": 0.2094,
      "step": 984
    },
    {
      "epoch": 1.4772045590881824,
      "grad_norm": 0.10672961920499802,
      "learning_rate": 0.0001,
      "loss": 0.1982,
      "step": 985
    },
    {
      "epoch": 1.4787042591481705,
      "grad_norm": 0.09810956567525864,
      "learning_rate": 0.0001,
      "loss": 0.1909,
      "step": 986
    },
    {
      "epoch": 1.4802039592081584,
      "grad_norm": 0.340567022562027,
      "learning_rate": 0.0001,
      "loss": 0.2035,
      "step": 987
    },
    {
      "epoch": 1.4817036592681463,
      "grad_norm": 0.1259010285139084,
      "learning_rate": 0.0001,
      "loss": 0.1992,
      "step": 988
    },
    {
      "epoch": 1.4832033593281344,
      "grad_norm": 0.1214718297123909,
      "learning_rate": 0.0001,
      "loss": 0.2,
      "step": 989
    },
    {
      "epoch": 1.4847030593881223,
      "grad_norm": 0.11008172482252121,
      "learning_rate": 0.0001,
      "loss": 0.192,
      "step": 990
    },
    {
      "epoch": 1.4862027594481104,
      "grad_norm": 0.09959933906793594,
      "learning_rate": 0.0001,
      "loss": 0.1961,
      "step": 991
    },
    {
      "epoch": 1.4877024595080983,
      "grad_norm": 0.11378493160009384,
      "learning_rate": 0.0001,
      "loss": 0.2051,
      "step": 992
    },
    {
      "epoch": 1.4892021595680864,
      "grad_norm": 0.0957990512251854,
      "learning_rate": 0.0001,
      "loss": 0.1741,
      "step": 993
    },
    {
      "epoch": 1.4907018596280743,
      "grad_norm": 0.13484032452106476,
      "learning_rate": 0.0001,
      "loss": 0.2042,
      "step": 994
    },
    {
      "epoch": 1.4922015596880625,
      "grad_norm": 0.11908593773841858,
      "learning_rate": 0.0001,
      "loss": 0.1937,
      "step": 995
    },
    {
      "epoch": 1.4937012597480503,
      "grad_norm": 0.08695761859416962,
      "learning_rate": 0.0001,
      "loss": 0.2128,
      "step": 996
    },
    {
      "epoch": 1.4952009598080385,
      "grad_norm": 0.1302425116300583,
      "learning_rate": 0.0001,
      "loss": 0.1986,
      "step": 997
    },
    {
      "epoch": 1.4967006598680264,
      "grad_norm": 0.14381921291351318,
      "learning_rate": 0.0001,
      "loss": 0.2065,
      "step": 998
    },
    {
      "epoch": 1.4982003599280145,
      "grad_norm": 0.11840377748012543,
      "learning_rate": 0.0001,
      "loss": 0.191,
      "step": 999
    },
    {
      "epoch": 1.4997000599880024,
      "grad_norm": 0.11086174100637436,
      "learning_rate": 0.0001,
      "loss": 0.2077,
      "step": 1000
    },
    {
      "epoch": 1.4997000599880024,
      "eval_loss": 0.2037862241268158,
      "eval_runtime": 507.3009,
      "eval_samples_per_second": 4.928,
      "eval_steps_per_second": 1.232,
      "step": 1000
    },
    {
      "epoch": 1.5011997600479905,
      "grad_norm": 0.12355190515518188,
      "learning_rate": 0.0001,
      "loss": 0.1987,
      "step": 1001
    },
    {
      "epoch": 1.5026994601079784,
      "grad_norm": 0.11555612832307816,
      "learning_rate": 0.0001,
      "loss": 0.2009,
      "step": 1002
    },
    {
      "epoch": 1.5041991601679663,
      "grad_norm": 0.11936858296394348,
      "learning_rate": 0.0001,
      "loss": 0.2084,
      "step": 1003
    },
    {
      "epoch": 1.5056988602279544,
      "grad_norm": 0.12157385796308517,
      "learning_rate": 0.0001,
      "loss": 0.2011,
      "step": 1004
    },
    {
      "epoch": 1.5071985602879425,
      "grad_norm": 0.1357925683259964,
      "learning_rate": 0.0001,
      "loss": 0.1896,
      "step": 1005
    },
    {
      "epoch": 1.5086982603479304,
      "grad_norm": 0.1181725412607193,
      "learning_rate": 0.0001,
      "loss": 0.2108,
      "step": 1006
    },
    {
      "epoch": 1.5101979604079183,
      "grad_norm": 0.12430168688297272,
      "learning_rate": 0.0001,
      "loss": 0.2197,
      "step": 1007
    },
    {
      "epoch": 1.5116976604679064,
      "grad_norm": 0.10597176849842072,
      "learning_rate": 0.0001,
      "loss": 0.1998,
      "step": 1008
    },
    {
      "epoch": 1.5131973605278946,
      "grad_norm": 0.0917702317237854,
      "learning_rate": 0.0001,
      "loss": 0.1879,
      "step": 1009
    },
    {
      "epoch": 1.5146970605878824,
      "grad_norm": 0.10625210404396057,
      "learning_rate": 0.0001,
      "loss": 0.1963,
      "step": 1010
    },
    {
      "epoch": 1.5161967606478703,
      "grad_norm": 0.10635264217853546,
      "learning_rate": 0.0001,
      "loss": 0.2117,
      "step": 1011
    },
    {
      "epoch": 1.5176964607078585,
      "grad_norm": 0.10505468398332596,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 1012
    },
    {
      "epoch": 1.5191961607678466,
      "grad_norm": 0.1128825843334198,
      "learning_rate": 0.0001,
      "loss": 0.1995,
      "step": 1013
    },
    {
      "epoch": 1.5206958608278345,
      "grad_norm": 0.11095554381608963,
      "learning_rate": 0.0001,
      "loss": 0.1859,
      "step": 1014
    },
    {
      "epoch": 1.5221955608878224,
      "grad_norm": 0.11117875576019287,
      "learning_rate": 0.0001,
      "loss": 0.2005,
      "step": 1015
    },
    {
      "epoch": 1.5236952609478105,
      "grad_norm": 0.09448196738958359,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 1016
    },
    {
      "epoch": 1.5251949610077984,
      "grad_norm": 0.09586550295352936,
      "learning_rate": 0.0001,
      "loss": 0.1832,
      "step": 1017
    },
    {
      "epoch": 1.5266946610677863,
      "grad_norm": 0.11510924249887466,
      "learning_rate": 0.0001,
      "loss": 0.1922,
      "step": 1018
    },
    {
      "epoch": 1.5281943611277744,
      "grad_norm": 0.25887808203697205,
      "learning_rate": 0.0001,
      "loss": 0.1989,
      "step": 1019
    },
    {
      "epoch": 1.5296940611877625,
      "grad_norm": 0.2543373703956604,
      "learning_rate": 0.0001,
      "loss": 0.1815,
      "step": 1020
    },
    {
      "epoch": 1.5311937612477504,
      "grad_norm": 0.10307039320468903,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 1021
    },
    {
      "epoch": 1.5326934613077383,
      "grad_norm": 0.10099951177835464,
      "learning_rate": 0.0001,
      "loss": 0.1921,
      "step": 1022
    },
    {
      "epoch": 1.5341931613677264,
      "grad_norm": 0.09923005104064941,
      "learning_rate": 0.0001,
      "loss": 0.1805,
      "step": 1023
    },
    {
      "epoch": 1.5356928614277146,
      "grad_norm": 0.10060203075408936,
      "learning_rate": 0.0001,
      "loss": 0.2045,
      "step": 1024
    },
    {
      "epoch": 1.5371925614877024,
      "grad_norm": 0.12519332766532898,
      "learning_rate": 0.0001,
      "loss": 0.1929,
      "step": 1025
    },
    {
      "epoch": 1.5386922615476903,
      "grad_norm": 0.09824684262275696,
      "learning_rate": 0.0001,
      "loss": 0.1983,
      "step": 1026
    },
    {
      "epoch": 1.5401919616076785,
      "grad_norm": 0.09858208149671555,
      "learning_rate": 0.0001,
      "loss": 0.2054,
      "step": 1027
    },
    {
      "epoch": 1.5416916616676666,
      "grad_norm": 0.1177138239145279,
      "learning_rate": 0.0001,
      "loss": 0.1873,
      "step": 1028
    },
    {
      "epoch": 1.5431913617276545,
      "grad_norm": 0.10525824129581451,
      "learning_rate": 0.0001,
      "loss": 0.185,
      "step": 1029
    },
    {
      "epoch": 1.5446910617876424,
      "grad_norm": 0.13185074925422668,
      "learning_rate": 0.0001,
      "loss": 0.1986,
      "step": 1030
    },
    {
      "epoch": 1.5461907618476305,
      "grad_norm": 0.1267818808555603,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 1031
    },
    {
      "epoch": 1.5476904619076186,
      "grad_norm": 0.11451156437397003,
      "learning_rate": 0.0001,
      "loss": 0.179,
      "step": 1032
    },
    {
      "epoch": 1.5491901619676065,
      "grad_norm": 0.13215695321559906,
      "learning_rate": 0.0001,
      "loss": 0.2164,
      "step": 1033
    },
    {
      "epoch": 1.5506898620275944,
      "grad_norm": 0.12139510363340378,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 1034
    },
    {
      "epoch": 1.5521895620875825,
      "grad_norm": 0.1054268479347229,
      "learning_rate": 0.0001,
      "loss": 0.1978,
      "step": 1035
    },
    {
      "epoch": 1.5536892621475706,
      "grad_norm": 0.5225418210029602,
      "learning_rate": 0.0001,
      "loss": 0.2045,
      "step": 1036
    },
    {
      "epoch": 1.5551889622075585,
      "grad_norm": 0.10130130499601364,
      "learning_rate": 0.0001,
      "loss": 0.184,
      "step": 1037
    },
    {
      "epoch": 1.5566886622675464,
      "grad_norm": 0.09502803534269333,
      "learning_rate": 0.0001,
      "loss": 0.2004,
      "step": 1038
    },
    {
      "epoch": 1.5581883623275345,
      "grad_norm": 0.10187314450740814,
      "learning_rate": 0.0001,
      "loss": 0.2017,
      "step": 1039
    },
    {
      "epoch": 1.5596880623875224,
      "grad_norm": 0.09413445740938187,
      "learning_rate": 0.0001,
      "loss": 0.1864,
      "step": 1040
    },
    {
      "epoch": 1.5611877624475103,
      "grad_norm": 0.11545425653457642,
      "learning_rate": 0.0001,
      "loss": 0.1953,
      "step": 1041
    },
    {
      "epoch": 1.5626874625074985,
      "grad_norm": 0.10832761973142624,
      "learning_rate": 0.0001,
      "loss": 0.2059,
      "step": 1042
    },
    {
      "epoch": 1.5641871625674866,
      "grad_norm": 0.10357046872377396,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 1043
    },
    {
      "epoch": 1.5656868626274745,
      "grad_norm": 0.09462092816829681,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 1044
    },
    {
      "epoch": 1.5671865626874624,
      "grad_norm": 0.4812215268611908,
      "learning_rate": 0.0001,
      "loss": 0.2033,
      "step": 1045
    },
    {
      "epoch": 1.5686862627474505,
      "grad_norm": 0.1125536859035492,
      "learning_rate": 0.0001,
      "loss": 0.1945,
      "step": 1046
    },
    {
      "epoch": 1.5701859628074386,
      "grad_norm": 0.11093748360872269,
      "learning_rate": 0.0001,
      "loss": 0.1863,
      "step": 1047
    },
    {
      "epoch": 1.5716856628674265,
      "grad_norm": 0.12012623250484467,
      "learning_rate": 0.0001,
      "loss": 0.1942,
      "step": 1048
    },
    {
      "epoch": 1.5731853629274144,
      "grad_norm": 0.34674444794654846,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 1049
    },
    {
      "epoch": 1.5746850629874025,
      "grad_norm": 0.13431501388549805,
      "learning_rate": 0.0001,
      "loss": 0.1881,
      "step": 1050
    },
    {
      "epoch": 1.5761847630473906,
      "grad_norm": 0.13453876972198486,
      "learning_rate": 0.0001,
      "loss": 0.1996,
      "step": 1051
    },
    {
      "epoch": 1.5776844631073785,
      "grad_norm": 0.09836160391569138,
      "learning_rate": 0.0001,
      "loss": 0.1862,
      "step": 1052
    },
    {
      "epoch": 1.5791841631673664,
      "grad_norm": 0.10689975321292877,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 1053
    },
    {
      "epoch": 1.5806838632273545,
      "grad_norm": 0.12312404811382294,
      "learning_rate": 0.0001,
      "loss": 0.1874,
      "step": 1054
    },
    {
      "epoch": 1.5821835632873427,
      "grad_norm": 0.12488724291324615,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 1055
    },
    {
      "epoch": 1.5836832633473306,
      "grad_norm": 0.16314329206943512,
      "learning_rate": 0.0001,
      "loss": 0.1921,
      "step": 1056
    },
    {
      "epoch": 1.5851829634073185,
      "grad_norm": 0.11971443146467209,
      "learning_rate": 0.0001,
      "loss": 0.1915,
      "step": 1057
    },
    {
      "epoch": 1.5866826634673066,
      "grad_norm": 0.10765492916107178,
      "learning_rate": 0.0001,
      "loss": 0.1879,
      "step": 1058
    },
    {
      "epoch": 1.5881823635272947,
      "grad_norm": 0.16519059240818024,
      "learning_rate": 0.0001,
      "loss": 0.2155,
      "step": 1059
    },
    {
      "epoch": 1.5896820635872826,
      "grad_norm": 0.1253824681043625,
      "learning_rate": 0.0001,
      "loss": 0.1925,
      "step": 1060
    },
    {
      "epoch": 1.5911817636472705,
      "grad_norm": 0.13274087011814117,
      "learning_rate": 0.0001,
      "loss": 0.1914,
      "step": 1061
    },
    {
      "epoch": 1.5926814637072586,
      "grad_norm": 0.12029144167900085,
      "learning_rate": 0.0001,
      "loss": 0.1898,
      "step": 1062
    },
    {
      "epoch": 1.5941811637672465,
      "grad_norm": 0.1012200117111206,
      "learning_rate": 0.0001,
      "loss": 0.1865,
      "step": 1063
    },
    {
      "epoch": 1.5956808638272344,
      "grad_norm": 0.10026891529560089,
      "learning_rate": 0.0001,
      "loss": 0.183,
      "step": 1064
    },
    {
      "epoch": 1.5971805638872225,
      "grad_norm": 0.12549078464508057,
      "learning_rate": 0.0001,
      "loss": 0.1984,
      "step": 1065
    },
    {
      "epoch": 1.5986802639472106,
      "grad_norm": 0.11921670287847519,
      "learning_rate": 0.0001,
      "loss": 0.2147,
      "step": 1066
    },
    {
      "epoch": 1.6001799640071985,
      "grad_norm": 0.11889690160751343,
      "learning_rate": 0.0001,
      "loss": 0.2115,
      "step": 1067
    },
    {
      "epoch": 1.6016796640671864,
      "grad_norm": 0.11150553077459335,
      "learning_rate": 0.0001,
      "loss": 0.1814,
      "step": 1068
    },
    {
      "epoch": 1.6031793641271745,
      "grad_norm": 0.11527784168720245,
      "learning_rate": 0.0001,
      "loss": 0.2079,
      "step": 1069
    },
    {
      "epoch": 1.6046790641871627,
      "grad_norm": 0.10435124486684799,
      "learning_rate": 0.0001,
      "loss": 0.1928,
      "step": 1070
    },
    {
      "epoch": 1.6061787642471506,
      "grad_norm": 0.11204922199249268,
      "learning_rate": 0.0001,
      "loss": 0.1899,
      "step": 1071
    },
    {
      "epoch": 1.6076784643071385,
      "grad_norm": 0.12256411463022232,
      "learning_rate": 0.0001,
      "loss": 0.2096,
      "step": 1072
    },
    {
      "epoch": 1.6091781643671266,
      "grad_norm": 0.11310096830129623,
      "learning_rate": 0.0001,
      "loss": 0.1941,
      "step": 1073
    },
    {
      "epoch": 1.6106778644271147,
      "grad_norm": 0.15943710505962372,
      "learning_rate": 0.0001,
      "loss": 0.1953,
      "step": 1074
    },
    {
      "epoch": 1.6121775644871026,
      "grad_norm": 0.13759376108646393,
      "learning_rate": 0.0001,
      "loss": 0.2099,
      "step": 1075
    },
    {
      "epoch": 1.6136772645470905,
      "grad_norm": 0.12124112248420715,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 1076
    },
    {
      "epoch": 1.6151769646070786,
      "grad_norm": 0.0996796116232872,
      "learning_rate": 0.0001,
      "loss": 0.2096,
      "step": 1077
    },
    {
      "epoch": 1.6166766646670667,
      "grad_norm": 0.09721719473600388,
      "learning_rate": 0.0001,
      "loss": 0.2037,
      "step": 1078
    },
    {
      "epoch": 1.6181763647270546,
      "grad_norm": 0.09972179681062698,
      "learning_rate": 0.0001,
      "loss": 0.2043,
      "step": 1079
    },
    {
      "epoch": 1.6196760647870425,
      "grad_norm": 0.10847991704940796,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 1080
    },
    {
      "epoch": 1.6211757648470306,
      "grad_norm": 0.11299028992652893,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 1081
    },
    {
      "epoch": 1.6226754649070187,
      "grad_norm": 0.1188049465417862,
      "learning_rate": 0.0001,
      "loss": 0.1953,
      "step": 1082
    },
    {
      "epoch": 1.6241751649670066,
      "grad_norm": 0.09115683287382126,
      "learning_rate": 0.0001,
      "loss": 0.2059,
      "step": 1083
    },
    {
      "epoch": 1.6256748650269945,
      "grad_norm": 0.10682567209005356,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 1084
    },
    {
      "epoch": 1.6271745650869827,
      "grad_norm": 0.09949523210525513,
      "learning_rate": 0.0001,
      "loss": 0.1847,
      "step": 1085
    },
    {
      "epoch": 1.6286742651469706,
      "grad_norm": 0.11572952568531036,
      "learning_rate": 0.0001,
      "loss": 0.1987,
      "step": 1086
    },
    {
      "epoch": 1.6301739652069585,
      "grad_norm": 0.102257139980793,
      "learning_rate": 0.0001,
      "loss": 0.1885,
      "step": 1087
    },
    {
      "epoch": 1.6316736652669466,
      "grad_norm": 0.10423179715871811,
      "learning_rate": 0.0001,
      "loss": 0.1968,
      "step": 1088
    },
    {
      "epoch": 1.6331733653269347,
      "grad_norm": 0.11358240991830826,
      "learning_rate": 0.0001,
      "loss": 0.2041,
      "step": 1089
    },
    {
      "epoch": 1.6346730653869226,
      "grad_norm": 0.12797117233276367,
      "learning_rate": 0.0001,
      "loss": 0.2086,
      "step": 1090
    },
    {
      "epoch": 1.6361727654469105,
      "grad_norm": 0.1431252807378769,
      "learning_rate": 0.0001,
      "loss": 0.1853,
      "step": 1091
    },
    {
      "epoch": 1.6376724655068986,
      "grad_norm": 0.11215018481016159,
      "learning_rate": 0.0001,
      "loss": 0.1857,
      "step": 1092
    },
    {
      "epoch": 1.6391721655668867,
      "grad_norm": 0.10906527936458588,
      "learning_rate": 0.0001,
      "loss": 0.194,
      "step": 1093
    },
    {
      "epoch": 1.6406718656268746,
      "grad_norm": 0.13006244599819183,
      "learning_rate": 0.0001,
      "loss": 0.1962,
      "step": 1094
    },
    {
      "epoch": 1.6421715656868625,
      "grad_norm": 0.11328581720590591,
      "learning_rate": 0.0001,
      "loss": 0.1907,
      "step": 1095
    },
    {
      "epoch": 1.6436712657468506,
      "grad_norm": 0.09016241878271103,
      "learning_rate": 0.0001,
      "loss": 0.1779,
      "step": 1096
    },
    {
      "epoch": 1.6451709658068387,
      "grad_norm": 0.1176440566778183,
      "learning_rate": 0.0001,
      "loss": 0.2046,
      "step": 1097
    },
    {
      "epoch": 1.6466706658668266,
      "grad_norm": 0.12075071781873703,
      "learning_rate": 0.0001,
      "loss": 0.2017,
      "step": 1098
    },
    {
      "epoch": 1.6481703659268145,
      "grad_norm": 0.1017090380191803,
      "learning_rate": 0.0001,
      "loss": 0.1919,
      "step": 1099
    },
    {
      "epoch": 1.6496700659868027,
      "grad_norm": 0.10802967846393585,
      "learning_rate": 0.0001,
      "loss": 0.2018,
      "step": 1100
    },
    {
      "epoch": 1.6511697660467908,
      "grad_norm": 0.11429436504840851,
      "learning_rate": 0.0001,
      "loss": 0.1984,
      "step": 1101
    },
    {
      "epoch": 1.6526694661067787,
      "grad_norm": 0.11252465844154358,
      "learning_rate": 0.0001,
      "loss": 0.2072,
      "step": 1102
    },
    {
      "epoch": 1.6541691661667666,
      "grad_norm": 0.11840922385454178,
      "learning_rate": 0.0001,
      "loss": 0.2117,
      "step": 1103
    },
    {
      "epoch": 1.6556688662267547,
      "grad_norm": 0.09038126468658447,
      "learning_rate": 0.0001,
      "loss": 0.2098,
      "step": 1104
    },
    {
      "epoch": 1.6571685662867428,
      "grad_norm": 0.1020638570189476,
      "learning_rate": 0.0001,
      "loss": 0.2201,
      "step": 1105
    },
    {
      "epoch": 1.6586682663467307,
      "grad_norm": 0.10576877743005753,
      "learning_rate": 0.0001,
      "loss": 0.2003,
      "step": 1106
    },
    {
      "epoch": 1.6601679664067186,
      "grad_norm": 0.10644730925559998,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 1107
    },
    {
      "epoch": 1.6616676664667067,
      "grad_norm": 0.10027191787958145,
      "learning_rate": 0.0001,
      "loss": 0.1871,
      "step": 1108
    },
    {
      "epoch": 1.6631673665266946,
      "grad_norm": 0.1183815598487854,
      "learning_rate": 0.0001,
      "loss": 0.1945,
      "step": 1109
    },
    {
      "epoch": 1.6646670665866825,
      "grad_norm": 0.09459071606397629,
      "learning_rate": 0.0001,
      "loss": 0.1894,
      "step": 1110
    },
    {
      "epoch": 1.6661667666466706,
      "grad_norm": 0.1167842373251915,
      "learning_rate": 0.0001,
      "loss": 0.1877,
      "step": 1111
    },
    {
      "epoch": 1.6676664667066587,
      "grad_norm": 0.1148998960852623,
      "learning_rate": 0.0001,
      "loss": 0.2129,
      "step": 1112
    },
    {
      "epoch": 1.6691661667666466,
      "grad_norm": 0.11056796461343765,
      "learning_rate": 0.0001,
      "loss": 0.1959,
      "step": 1113
    },
    {
      "epoch": 1.6706658668266345,
      "grad_norm": 0.1115986779332161,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 1114
    },
    {
      "epoch": 1.6721655668866227,
      "grad_norm": 0.11409001052379608,
      "learning_rate": 0.0001,
      "loss": 0.1942,
      "step": 1115
    },
    {
      "epoch": 1.6736652669466108,
      "grad_norm": 0.12593962252140045,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 1116
    },
    {
      "epoch": 1.6751649670065987,
      "grad_norm": 0.14035220444202423,
      "learning_rate": 0.0001,
      "loss": 0.1978,
      "step": 1117
    },
    {
      "epoch": 1.6766646670665866,
      "grad_norm": 0.1149965152144432,
      "learning_rate": 0.0001,
      "loss": 0.1979,
      "step": 1118
    },
    {
      "epoch": 1.6781643671265747,
      "grad_norm": 0.10624043643474579,
      "learning_rate": 0.0001,
      "loss": 0.2011,
      "step": 1119
    },
    {
      "epoch": 1.6796640671865628,
      "grad_norm": 0.11364637315273285,
      "learning_rate": 0.0001,
      "loss": 0.2129,
      "step": 1120
    },
    {
      "epoch": 1.6811637672465507,
      "grad_norm": 0.11480407416820526,
      "learning_rate": 0.0001,
      "loss": 0.2028,
      "step": 1121
    },
    {
      "epoch": 1.6826634673065386,
      "grad_norm": 0.11167983710765839,
      "learning_rate": 0.0001,
      "loss": 0.1897,
      "step": 1122
    },
    {
      "epoch": 1.6841631673665267,
      "grad_norm": 0.10685545951128006,
      "learning_rate": 0.0001,
      "loss": 0.2061,
      "step": 1123
    },
    {
      "epoch": 1.6856628674265148,
      "grad_norm": 0.11102985590696335,
      "learning_rate": 0.0001,
      "loss": 0.2048,
      "step": 1124
    },
    {
      "epoch": 1.6871625674865027,
      "grad_norm": 0.10330311954021454,
      "learning_rate": 0.0001,
      "loss": 0.1887,
      "step": 1125
    },
    {
      "epoch": 1.6886622675464906,
      "grad_norm": 0.0906527042388916,
      "learning_rate": 0.0001,
      "loss": 0.1821,
      "step": 1126
    },
    {
      "epoch": 1.6901619676064787,
      "grad_norm": 0.0990966185927391,
      "learning_rate": 0.0001,
      "loss": 0.1814,
      "step": 1127
    },
    {
      "epoch": 1.6916616676664669,
      "grad_norm": 0.09522081911563873,
      "learning_rate": 0.0001,
      "loss": 0.1957,
      "step": 1128
    },
    {
      "epoch": 1.6931613677264548,
      "grad_norm": 0.14989186823368073,
      "learning_rate": 0.0001,
      "loss": 0.2102,
      "step": 1129
    },
    {
      "epoch": 1.6946610677864427,
      "grad_norm": 0.10286729782819748,
      "learning_rate": 0.0001,
      "loss": 0.205,
      "step": 1130
    },
    {
      "epoch": 1.6961607678464308,
      "grad_norm": 0.11502160131931305,
      "learning_rate": 0.0001,
      "loss": 0.1974,
      "step": 1131
    },
    {
      "epoch": 1.6976604679064187,
      "grad_norm": 0.13244637846946716,
      "learning_rate": 0.0001,
      "loss": 0.1955,
      "step": 1132
    },
    {
      "epoch": 1.6991601679664066,
      "grad_norm": 0.09180395305156708,
      "learning_rate": 0.0001,
      "loss": 0.164,
      "step": 1133
    },
    {
      "epoch": 1.7006598680263947,
      "grad_norm": 0.19947046041488647,
      "learning_rate": 0.0001,
      "loss": 0.1948,
      "step": 1134
    },
    {
      "epoch": 1.7021595680863828,
      "grad_norm": 0.10012658685445786,
      "learning_rate": 0.0001,
      "loss": 0.2076,
      "step": 1135
    },
    {
      "epoch": 1.7036592681463707,
      "grad_norm": 0.11814823746681213,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 1136
    },
    {
      "epoch": 1.7051589682063586,
      "grad_norm": 0.11844493448734283,
      "learning_rate": 0.0001,
      "loss": 0.1897,
      "step": 1137
    },
    {
      "epoch": 1.7066586682663467,
      "grad_norm": 0.18749728798866272,
      "learning_rate": 0.0001,
      "loss": 0.21,
      "step": 1138
    },
    {
      "epoch": 1.7081583683263348,
      "grad_norm": 0.111127108335495,
      "learning_rate": 0.0001,
      "loss": 0.2049,
      "step": 1139
    },
    {
      "epoch": 1.7096580683863227,
      "grad_norm": 0.08792739361524582,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 1140
    },
    {
      "epoch": 1.7111577684463106,
      "grad_norm": 0.11399748176336288,
      "learning_rate": 0.0001,
      "loss": 0.1872,
      "step": 1141
    },
    {
      "epoch": 1.7126574685062987,
      "grad_norm": 0.10061419755220413,
      "learning_rate": 0.0001,
      "loss": 0.2068,
      "step": 1142
    },
    {
      "epoch": 1.7141571685662869,
      "grad_norm": 0.10578369349241257,
      "learning_rate": 0.0001,
      "loss": 0.1928,
      "step": 1143
    },
    {
      "epoch": 1.7156568686262748,
      "grad_norm": 0.10594231635332108,
      "learning_rate": 0.0001,
      "loss": 0.185,
      "step": 1144
    },
    {
      "epoch": 1.7171565686862627,
      "grad_norm": 0.1072130799293518,
      "learning_rate": 0.0001,
      "loss": 0.2082,
      "step": 1145
    },
    {
      "epoch": 1.7186562687462508,
      "grad_norm": 0.10733215510845184,
      "learning_rate": 0.0001,
      "loss": 0.2028,
      "step": 1146
    },
    {
      "epoch": 1.7201559688062389,
      "grad_norm": 0.09710156917572021,
      "learning_rate": 0.0001,
      "loss": 0.2036,
      "step": 1147
    },
    {
      "epoch": 1.7216556688662268,
      "grad_norm": 0.1302318423986435,
      "learning_rate": 0.0001,
      "loss": 0.1992,
      "step": 1148
    },
    {
      "epoch": 1.7231553689262147,
      "grad_norm": 0.10692758858203888,
      "learning_rate": 0.0001,
      "loss": 0.2137,
      "step": 1149
    },
    {
      "epoch": 1.7246550689862028,
      "grad_norm": 0.1028314158320427,
      "learning_rate": 0.0001,
      "loss": 0.2028,
      "step": 1150
    },
    {
      "epoch": 1.726154769046191,
      "grad_norm": 0.10169191658496857,
      "learning_rate": 0.0001,
      "loss": 0.1905,
      "step": 1151
    },
    {
      "epoch": 1.7276544691061788,
      "grad_norm": 0.09757184237241745,
      "learning_rate": 0.0001,
      "loss": 0.1819,
      "step": 1152
    },
    {
      "epoch": 1.7291541691661667,
      "grad_norm": 0.11140730232000351,
      "learning_rate": 0.0001,
      "loss": 0.1955,
      "step": 1153
    },
    {
      "epoch": 1.7306538692261548,
      "grad_norm": 0.126157745718956,
      "learning_rate": 0.0001,
      "loss": 0.1887,
      "step": 1154
    },
    {
      "epoch": 1.7321535692861427,
      "grad_norm": 0.1039605364203453,
      "learning_rate": 0.0001,
      "loss": 0.1889,
      "step": 1155
    },
    {
      "epoch": 1.7336532693461306,
      "grad_norm": 0.12158959358930588,
      "learning_rate": 0.0001,
      "loss": 0.2113,
      "step": 1156
    },
    {
      "epoch": 1.7351529694061187,
      "grad_norm": 0.14658816158771515,
      "learning_rate": 0.0001,
      "loss": 0.2311,
      "step": 1157
    },
    {
      "epoch": 1.7366526694661069,
      "grad_norm": 0.10614971071481705,
      "learning_rate": 0.0001,
      "loss": 0.2067,
      "step": 1158
    },
    {
      "epoch": 1.7381523695260948,
      "grad_norm": 0.1586129069328308,
      "learning_rate": 0.0001,
      "loss": 0.1967,
      "step": 1159
    },
    {
      "epoch": 1.7396520695860826,
      "grad_norm": 0.09521541744470596,
      "learning_rate": 0.0001,
      "loss": 0.178,
      "step": 1160
    },
    {
      "epoch": 1.7411517696460708,
      "grad_norm": 0.11541226506233215,
      "learning_rate": 0.0001,
      "loss": 0.2087,
      "step": 1161
    },
    {
      "epoch": 1.7426514697060589,
      "grad_norm": 0.10880342870950699,
      "learning_rate": 0.0001,
      "loss": 0.1996,
      "step": 1162
    },
    {
      "epoch": 1.7441511697660468,
      "grad_norm": 0.10559619963169098,
      "learning_rate": 0.0001,
      "loss": 0.2056,
      "step": 1163
    },
    {
      "epoch": 1.7456508698260347,
      "grad_norm": 0.10406855493783951,
      "learning_rate": 0.0001,
      "loss": 0.1915,
      "step": 1164
    },
    {
      "epoch": 1.7471505698860228,
      "grad_norm": 0.10140904784202576,
      "learning_rate": 0.0001,
      "loss": 0.1854,
      "step": 1165
    },
    {
      "epoch": 1.748650269946011,
      "grad_norm": 0.6124143600463867,
      "learning_rate": 0.0001,
      "loss": 0.1832,
      "step": 1166
    },
    {
      "epoch": 1.7501499700059988,
      "grad_norm": 0.1032431423664093,
      "learning_rate": 0.0001,
      "loss": 0.1912,
      "step": 1167
    },
    {
      "epoch": 1.7516496700659867,
      "grad_norm": 0.12478794157505035,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 1168
    },
    {
      "epoch": 1.7531493701259748,
      "grad_norm": 0.14380188286304474,
      "learning_rate": 0.0001,
      "loss": 0.2039,
      "step": 1169
    },
    {
      "epoch": 1.754649070185963,
      "grad_norm": 0.0945819839835167,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1170
    },
    {
      "epoch": 1.7561487702459508,
      "grad_norm": 0.1069147065281868,
      "learning_rate": 0.0001,
      "loss": 0.2016,
      "step": 1171
    },
    {
      "epoch": 1.7576484703059387,
      "grad_norm": 0.1226704940199852,
      "learning_rate": 0.0001,
      "loss": 0.1806,
      "step": 1172
    },
    {
      "epoch": 1.7591481703659269,
      "grad_norm": 0.11270112544298172,
      "learning_rate": 0.0001,
      "loss": 0.1971,
      "step": 1173
    },
    {
      "epoch": 1.760647870425915,
      "grad_norm": 0.1171402782201767,
      "learning_rate": 0.0001,
      "loss": 0.2121,
      "step": 1174
    },
    {
      "epoch": 1.7621475704859029,
      "grad_norm": 0.10504908114671707,
      "learning_rate": 0.0001,
      "loss": 0.1971,
      "step": 1175
    },
    {
      "epoch": 1.7636472705458908,
      "grad_norm": 0.10381943732500076,
      "learning_rate": 0.0001,
      "loss": 0.1849,
      "step": 1176
    },
    {
      "epoch": 1.7651469706058789,
      "grad_norm": 0.09008096158504486,
      "learning_rate": 0.0001,
      "loss": 0.1998,
      "step": 1177
    },
    {
      "epoch": 1.7666466706658668,
      "grad_norm": 0.11310309916734695,
      "learning_rate": 0.0001,
      "loss": 0.2108,
      "step": 1178
    },
    {
      "epoch": 1.7681463707258547,
      "grad_norm": 0.09869152307510376,
      "learning_rate": 0.0001,
      "loss": 0.1922,
      "step": 1179
    },
    {
      "epoch": 1.7696460707858428,
      "grad_norm": 0.09818727523088455,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 1180
    },
    {
      "epoch": 1.771145770845831,
      "grad_norm": 0.09904745221138,
      "learning_rate": 0.0001,
      "loss": 0.1881,
      "step": 1181
    },
    {
      "epoch": 1.7726454709058188,
      "grad_norm": 0.10622788220643997,
      "learning_rate": 0.0001,
      "loss": 0.2009,
      "step": 1182
    },
    {
      "epoch": 1.7741451709658067,
      "grad_norm": 0.18669505417346954,
      "learning_rate": 0.0001,
      "loss": 0.1841,
      "step": 1183
    },
    {
      "epoch": 1.7756448710257948,
      "grad_norm": 0.10244689881801605,
      "learning_rate": 0.0001,
      "loss": 0.191,
      "step": 1184
    },
    {
      "epoch": 1.777144571085783,
      "grad_norm": 0.09980310499668121,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 1185
    },
    {
      "epoch": 1.7786442711457708,
      "grad_norm": 0.1453751027584076,
      "learning_rate": 0.0001,
      "loss": 0.2061,
      "step": 1186
    },
    {
      "epoch": 1.7801439712057587,
      "grad_norm": 0.11297392100095749,
      "learning_rate": 0.0001,
      "loss": 0.1972,
      "step": 1187
    },
    {
      "epoch": 1.7816436712657469,
      "grad_norm": 0.11484469473361969,
      "learning_rate": 0.0001,
      "loss": 0.1921,
      "step": 1188
    },
    {
      "epoch": 1.783143371325735,
      "grad_norm": 0.13756738603115082,
      "learning_rate": 0.0001,
      "loss": 0.2068,
      "step": 1189
    },
    {
      "epoch": 1.7846430713857229,
      "grad_norm": 0.09360431879758835,
      "learning_rate": 0.0001,
      "loss": 0.1829,
      "step": 1190
    },
    {
      "epoch": 1.7861427714457108,
      "grad_norm": 0.1106751412153244,
      "learning_rate": 0.0001,
      "loss": 0.2043,
      "step": 1191
    },
    {
      "epoch": 1.7876424715056989,
      "grad_norm": 0.11110064387321472,
      "learning_rate": 0.0001,
      "loss": 0.2075,
      "step": 1192
    },
    {
      "epoch": 1.789142171565687,
      "grad_norm": 0.0938107892870903,
      "learning_rate": 0.0001,
      "loss": 0.1744,
      "step": 1193
    },
    {
      "epoch": 1.790641871625675,
      "grad_norm": 0.11467380821704865,
      "learning_rate": 0.0001,
      "loss": 0.1878,
      "step": 1194
    },
    {
      "epoch": 1.7921415716856628,
      "grad_norm": 0.10991577059030533,
      "learning_rate": 0.0001,
      "loss": 0.2024,
      "step": 1195
    },
    {
      "epoch": 1.793641271745651,
      "grad_norm": 0.1102384701371193,
      "learning_rate": 0.0001,
      "loss": 0.1968,
      "step": 1196
    },
    {
      "epoch": 1.795140971805639,
      "grad_norm": 0.10317005962133408,
      "learning_rate": 0.0001,
      "loss": 0.2001,
      "step": 1197
    },
    {
      "epoch": 1.796640671865627,
      "grad_norm": 0.0920012891292572,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 1198
    },
    {
      "epoch": 1.7981403719256148,
      "grad_norm": 0.13771116733551025,
      "learning_rate": 0.0001,
      "loss": 0.2035,
      "step": 1199
    },
    {
      "epoch": 1.799640071985603,
      "grad_norm": 0.11699234694242477,
      "learning_rate": 0.0001,
      "loss": 0.2013,
      "step": 1200
    },
    {
      "epoch": 1.8011397720455908,
      "grad_norm": 0.09317750483751297,
      "learning_rate": 0.0001,
      "loss": 0.1996,
      "step": 1201
    },
    {
      "epoch": 1.8026394721055787,
      "grad_norm": 0.09494755417108536,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 1202
    },
    {
      "epoch": 1.8041391721655669,
      "grad_norm": 0.1098581850528717,
      "learning_rate": 0.0001,
      "loss": 0.2065,
      "step": 1203
    },
    {
      "epoch": 1.805638872225555,
      "grad_norm": 0.09652047604322433,
      "learning_rate": 0.0001,
      "loss": 0.1777,
      "step": 1204
    },
    {
      "epoch": 1.8071385722855429,
      "grad_norm": 0.10652283579111099,
      "learning_rate": 0.0001,
      "loss": 0.2003,
      "step": 1205
    },
    {
      "epoch": 1.8086382723455308,
      "grad_norm": 0.11690682917833328,
      "learning_rate": 0.0001,
      "loss": 0.1838,
      "step": 1206
    },
    {
      "epoch": 1.8101379724055189,
      "grad_norm": 0.11017796397209167,
      "learning_rate": 0.0001,
      "loss": 0.1921,
      "step": 1207
    },
    {
      "epoch": 1.811637672465507,
      "grad_norm": 0.09544912725687027,
      "learning_rate": 0.0001,
      "loss": 0.2014,
      "step": 1208
    },
    {
      "epoch": 1.813137372525495,
      "grad_norm": 0.09797763079404831,
      "learning_rate": 0.0001,
      "loss": 0.186,
      "step": 1209
    },
    {
      "epoch": 1.8146370725854828,
      "grad_norm": 0.1156986877322197,
      "learning_rate": 0.0001,
      "loss": 0.2138,
      "step": 1210
    },
    {
      "epoch": 1.816136772645471,
      "grad_norm": 0.12152178585529327,
      "learning_rate": 0.0001,
      "loss": 0.195,
      "step": 1211
    },
    {
      "epoch": 1.817636472705459,
      "grad_norm": 0.11143418401479721,
      "learning_rate": 0.0001,
      "loss": 0.2034,
      "step": 1212
    },
    {
      "epoch": 1.819136172765447,
      "grad_norm": 0.10238421708345413,
      "learning_rate": 0.0001,
      "loss": 0.1925,
      "step": 1213
    },
    {
      "epoch": 1.8206358728254348,
      "grad_norm": 0.09215199202299118,
      "learning_rate": 0.0001,
      "loss": 0.1739,
      "step": 1214
    },
    {
      "epoch": 1.822135572885423,
      "grad_norm": 0.10532302409410477,
      "learning_rate": 0.0001,
      "loss": 0.2017,
      "step": 1215
    },
    {
      "epoch": 1.823635272945411,
      "grad_norm": 0.09916847199201584,
      "learning_rate": 0.0001,
      "loss": 0.1893,
      "step": 1216
    },
    {
      "epoch": 1.825134973005399,
      "grad_norm": 0.10724111646413803,
      "learning_rate": 0.0001,
      "loss": 0.2104,
      "step": 1217
    },
    {
      "epoch": 1.8266346730653868,
      "grad_norm": 0.13043035566806793,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 1218
    },
    {
      "epoch": 1.828134373125375,
      "grad_norm": 0.10955711454153061,
      "learning_rate": 0.0001,
      "loss": 0.1799,
      "step": 1219
    },
    {
      "epoch": 1.829634073185363,
      "grad_norm": 0.11093674600124359,
      "learning_rate": 0.0001,
      "loss": 0.1782,
      "step": 1220
    },
    {
      "epoch": 1.831133773245351,
      "grad_norm": 0.1992785930633545,
      "learning_rate": 0.0001,
      "loss": 0.1882,
      "step": 1221
    },
    {
      "epoch": 1.8326334733053389,
      "grad_norm": 0.09699690341949463,
      "learning_rate": 0.0001,
      "loss": 0.1958,
      "step": 1222
    },
    {
      "epoch": 1.834133173365327,
      "grad_norm": 0.10523809492588043,
      "learning_rate": 0.0001,
      "loss": 0.1956,
      "step": 1223
    },
    {
      "epoch": 1.835632873425315,
      "grad_norm": 0.11682474613189697,
      "learning_rate": 0.0001,
      "loss": 0.1962,
      "step": 1224
    },
    {
      "epoch": 1.8371325734853028,
      "grad_norm": 0.0916992723941803,
      "learning_rate": 0.0001,
      "loss": 0.1849,
      "step": 1225
    },
    {
      "epoch": 1.838632273545291,
      "grad_norm": 0.10868490487337112,
      "learning_rate": 0.0001,
      "loss": 0.1957,
      "step": 1226
    },
    {
      "epoch": 1.840131973605279,
      "grad_norm": 0.14077380299568176,
      "learning_rate": 0.0001,
      "loss": 0.2024,
      "step": 1227
    },
    {
      "epoch": 1.841631673665267,
      "grad_norm": 0.09963028877973557,
      "learning_rate": 0.0001,
      "loss": 0.1858,
      "step": 1228
    },
    {
      "epoch": 1.8431313737252548,
      "grad_norm": 0.10160801559686661,
      "learning_rate": 0.0001,
      "loss": 0.182,
      "step": 1229
    },
    {
      "epoch": 1.844631073785243,
      "grad_norm": 0.11074837297201157,
      "learning_rate": 0.0001,
      "loss": 0.1771,
      "step": 1230
    },
    {
      "epoch": 1.846130773845231,
      "grad_norm": 0.11732167750597,
      "learning_rate": 0.0001,
      "loss": 0.1908,
      "step": 1231
    },
    {
      "epoch": 1.847630473905219,
      "grad_norm": 0.10932524502277374,
      "learning_rate": 0.0001,
      "loss": 0.1992,
      "step": 1232
    },
    {
      "epoch": 1.8491301739652068,
      "grad_norm": 0.11181753128767014,
      "learning_rate": 0.0001,
      "loss": 0.1934,
      "step": 1233
    },
    {
      "epoch": 1.850629874025195,
      "grad_norm": 0.11480618268251419,
      "learning_rate": 0.0001,
      "loss": 0.1905,
      "step": 1234
    },
    {
      "epoch": 1.852129574085183,
      "grad_norm": 0.12573610246181488,
      "learning_rate": 0.0001,
      "loss": 0.1959,
      "step": 1235
    },
    {
      "epoch": 1.853629274145171,
      "grad_norm": 0.11566773802042007,
      "learning_rate": 0.0001,
      "loss": 0.209,
      "step": 1236
    },
    {
      "epoch": 1.8551289742051589,
      "grad_norm": 0.10592687129974365,
      "learning_rate": 0.0001,
      "loss": 0.1943,
      "step": 1237
    },
    {
      "epoch": 1.856628674265147,
      "grad_norm": 0.11739789694547653,
      "learning_rate": 0.0001,
      "loss": 0.1857,
      "step": 1238
    },
    {
      "epoch": 1.8581283743251351,
      "grad_norm": 0.09591228514909744,
      "learning_rate": 0.0001,
      "loss": 0.1743,
      "step": 1239
    },
    {
      "epoch": 1.859628074385123,
      "grad_norm": 0.11284282803535461,
      "learning_rate": 0.0001,
      "loss": 0.191,
      "step": 1240
    },
    {
      "epoch": 1.861127774445111,
      "grad_norm": 0.12933595478534698,
      "learning_rate": 0.0001,
      "loss": 0.189,
      "step": 1241
    },
    {
      "epoch": 1.862627474505099,
      "grad_norm": 0.09811316430568695,
      "learning_rate": 0.0001,
      "loss": 0.2043,
      "step": 1242
    },
    {
      "epoch": 1.8641271745650871,
      "grad_norm": 0.11243319511413574,
      "learning_rate": 0.0001,
      "loss": 0.19,
      "step": 1243
    },
    {
      "epoch": 1.865626874625075,
      "grad_norm": 0.08575588464736938,
      "learning_rate": 0.0001,
      "loss": 0.1779,
      "step": 1244
    },
    {
      "epoch": 1.867126574685063,
      "grad_norm": 0.12166840583086014,
      "learning_rate": 0.0001,
      "loss": 0.2088,
      "step": 1245
    },
    {
      "epoch": 1.868626274745051,
      "grad_norm": 0.09881320595741272,
      "learning_rate": 0.0001,
      "loss": 0.1966,
      "step": 1246
    },
    {
      "epoch": 1.870125974805039,
      "grad_norm": 0.10052403807640076,
      "learning_rate": 0.0001,
      "loss": 0.1962,
      "step": 1247
    },
    {
      "epoch": 1.8716256748650268,
      "grad_norm": 0.10894519090652466,
      "learning_rate": 0.0001,
      "loss": 0.2084,
      "step": 1248
    },
    {
      "epoch": 1.873125374925015,
      "grad_norm": 0.12000886350870132,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 1249
    },
    {
      "epoch": 1.874625074985003,
      "grad_norm": 0.13787056505680084,
      "learning_rate": 0.0001,
      "loss": 0.1901,
      "step": 1250
    },
    {
      "epoch": 1.876124775044991,
      "grad_norm": 0.1064075231552124,
      "learning_rate": 0.0001,
      "loss": 0.197,
      "step": 1251
    },
    {
      "epoch": 1.8776244751049789,
      "grad_norm": 0.1057884618639946,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 1252
    },
    {
      "epoch": 1.879124175164967,
      "grad_norm": 0.09089716523885727,
      "learning_rate": 0.0001,
      "loss": 0.2029,
      "step": 1253
    },
    {
      "epoch": 1.880623875224955,
      "grad_norm": 0.10496843606233597,
      "learning_rate": 0.0001,
      "loss": 0.1932,
      "step": 1254
    },
    {
      "epoch": 1.882123575284943,
      "grad_norm": 0.09463910758495331,
      "learning_rate": 0.0001,
      "loss": 0.1811,
      "step": 1255
    },
    {
      "epoch": 1.883623275344931,
      "grad_norm": 0.1001424565911293,
      "learning_rate": 0.0001,
      "loss": 0.1903,
      "step": 1256
    },
    {
      "epoch": 1.885122975404919,
      "grad_norm": 0.11783625185489655,
      "learning_rate": 0.0001,
      "loss": 0.1885,
      "step": 1257
    },
    {
      "epoch": 1.8866226754649071,
      "grad_norm": 0.11485541611909866,
      "learning_rate": 0.0001,
      "loss": 0.2031,
      "step": 1258
    },
    {
      "epoch": 1.888122375524895,
      "grad_norm": 0.12828627228736877,
      "learning_rate": 0.0001,
      "loss": 0.1834,
      "step": 1259
    },
    {
      "epoch": 1.889622075584883,
      "grad_norm": 0.10494177043437958,
      "learning_rate": 0.0001,
      "loss": 0.1944,
      "step": 1260
    },
    {
      "epoch": 1.891121775644871,
      "grad_norm": 0.09432996064424515,
      "learning_rate": 0.0001,
      "loss": 0.1949,
      "step": 1261
    },
    {
      "epoch": 1.8926214757048592,
      "grad_norm": 0.11675583571195602,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 1262
    },
    {
      "epoch": 1.894121175764847,
      "grad_norm": 0.10693901777267456,
      "learning_rate": 0.0001,
      "loss": 0.1942,
      "step": 1263
    },
    {
      "epoch": 1.895620875824835,
      "grad_norm": 0.11117812246084213,
      "learning_rate": 0.0001,
      "loss": 0.1992,
      "step": 1264
    },
    {
      "epoch": 1.897120575884823,
      "grad_norm": 0.1024986132979393,
      "learning_rate": 0.0001,
      "loss": 0.2056,
      "step": 1265
    },
    {
      "epoch": 1.8986202759448112,
      "grad_norm": 0.11095993965864182,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 1266
    },
    {
      "epoch": 1.900119976004799,
      "grad_norm": 0.11016707867383957,
      "learning_rate": 0.0001,
      "loss": 0.2092,
      "step": 1267
    },
    {
      "epoch": 1.901619676064787,
      "grad_norm": 0.09751098603010178,
      "learning_rate": 0.0001,
      "loss": 0.1829,
      "step": 1268
    },
    {
      "epoch": 1.903119376124775,
      "grad_norm": 0.10518798977136612,
      "learning_rate": 0.0001,
      "loss": 0.1921,
      "step": 1269
    },
    {
      "epoch": 1.904619076184763,
      "grad_norm": 0.11646100133657455,
      "learning_rate": 0.0001,
      "loss": 0.204,
      "step": 1270
    },
    {
      "epoch": 1.906118776244751,
      "grad_norm": 0.09454818814992905,
      "learning_rate": 0.0001,
      "loss": 0.1813,
      "step": 1271
    },
    {
      "epoch": 1.907618476304739,
      "grad_norm": 0.10992960631847382,
      "learning_rate": 0.0001,
      "loss": 0.1772,
      "step": 1272
    },
    {
      "epoch": 1.9091181763647271,
      "grad_norm": 0.08854175359010696,
      "learning_rate": 0.0001,
      "loss": 0.1926,
      "step": 1273
    },
    {
      "epoch": 1.910617876424715,
      "grad_norm": 0.11592192202806473,
      "learning_rate": 0.0001,
      "loss": 0.2098,
      "step": 1274
    },
    {
      "epoch": 1.912117576484703,
      "grad_norm": 0.1465483158826828,
      "learning_rate": 0.0001,
      "loss": 0.1922,
      "step": 1275
    },
    {
      "epoch": 1.913617276544691,
      "grad_norm": 0.10816039890050888,
      "learning_rate": 0.0001,
      "loss": 0.1842,
      "step": 1276
    },
    {
      "epoch": 1.9151169766046792,
      "grad_norm": 0.12261582911014557,
      "learning_rate": 0.0001,
      "loss": 0.2123,
      "step": 1277
    },
    {
      "epoch": 1.916616676664667,
      "grad_norm": 0.1066349446773529,
      "learning_rate": 0.0001,
      "loss": 0.1834,
      "step": 1278
    },
    {
      "epoch": 1.918116376724655,
      "grad_norm": 0.09004691243171692,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 1279
    },
    {
      "epoch": 1.919616076784643,
      "grad_norm": 0.10440120846033096,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1280
    },
    {
      "epoch": 1.9211157768446312,
      "grad_norm": 0.11960989981889725,
      "learning_rate": 0.0001,
      "loss": 0.1921,
      "step": 1281
    },
    {
      "epoch": 1.922615476904619,
      "grad_norm": 0.12318555265665054,
      "learning_rate": 0.0001,
      "loss": 0.196,
      "step": 1282
    },
    {
      "epoch": 1.924115176964607,
      "grad_norm": 0.10473744571208954,
      "learning_rate": 0.0001,
      "loss": 0.192,
      "step": 1283
    },
    {
      "epoch": 1.925614877024595,
      "grad_norm": 0.11655620485544205,
      "learning_rate": 0.0001,
      "loss": 0.1978,
      "step": 1284
    },
    {
      "epoch": 1.9271145770845832,
      "grad_norm": 0.14418292045593262,
      "learning_rate": 0.0001,
      "loss": 0.2106,
      "step": 1285
    },
    {
      "epoch": 1.9286142771445711,
      "grad_norm": 0.12084893882274628,
      "learning_rate": 0.0001,
      "loss": 0.1993,
      "step": 1286
    },
    {
      "epoch": 1.930113977204559,
      "grad_norm": 0.14827796816825867,
      "learning_rate": 0.0001,
      "loss": 0.1975,
      "step": 1287
    },
    {
      "epoch": 1.9316136772645471,
      "grad_norm": 0.12398018687963486,
      "learning_rate": 0.0001,
      "loss": 0.1995,
      "step": 1288
    },
    {
      "epoch": 1.9331133773245353,
      "grad_norm": 0.11317586153745651,
      "learning_rate": 0.0001,
      "loss": 0.2008,
      "step": 1289
    },
    {
      "epoch": 1.9346130773845231,
      "grad_norm": 0.09789318591356277,
      "learning_rate": 0.0001,
      "loss": 0.1941,
      "step": 1290
    },
    {
      "epoch": 1.936112777444511,
      "grad_norm": 0.10424337536096573,
      "learning_rate": 0.0001,
      "loss": 0.1893,
      "step": 1291
    },
    {
      "epoch": 1.9376124775044992,
      "grad_norm": 0.0980500876903534,
      "learning_rate": 0.0001,
      "loss": 0.1852,
      "step": 1292
    },
    {
      "epoch": 1.939112177564487,
      "grad_norm": 0.12145908921957016,
      "learning_rate": 0.0001,
      "loss": 0.2178,
      "step": 1293
    },
    {
      "epoch": 1.940611877624475,
      "grad_norm": 0.08923064172267914,
      "learning_rate": 0.0001,
      "loss": 0.1909,
      "step": 1294
    },
    {
      "epoch": 1.942111577684463,
      "grad_norm": 0.09866651147603989,
      "learning_rate": 0.0001,
      "loss": 0.1998,
      "step": 1295
    },
    {
      "epoch": 1.9436112777444512,
      "grad_norm": 0.0942898765206337,
      "learning_rate": 0.0001,
      "loss": 0.1853,
      "step": 1296
    },
    {
      "epoch": 1.945110977804439,
      "grad_norm": 0.10450282692909241,
      "learning_rate": 0.0001,
      "loss": 0.1931,
      "step": 1297
    },
    {
      "epoch": 1.946610677864427,
      "grad_norm": 0.11553775519132614,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 1298
    },
    {
      "epoch": 1.948110377924415,
      "grad_norm": 0.1627270132303238,
      "learning_rate": 0.0001,
      "loss": 0.1883,
      "step": 1299
    },
    {
      "epoch": 1.9496100779844032,
      "grad_norm": 0.11591017991304398,
      "learning_rate": 0.0001,
      "loss": 0.2055,
      "step": 1300
    },
    {
      "epoch": 1.9511097780443911,
      "grad_norm": 0.11368472129106522,
      "learning_rate": 0.0001,
      "loss": 0.1947,
      "step": 1301
    },
    {
      "epoch": 1.952609478104379,
      "grad_norm": 0.09424935281276703,
      "learning_rate": 0.0001,
      "loss": 0.2025,
      "step": 1302
    },
    {
      "epoch": 1.9541091781643671,
      "grad_norm": 0.10568554699420929,
      "learning_rate": 0.0001,
      "loss": 0.1961,
      "step": 1303
    },
    {
      "epoch": 1.9556088782243553,
      "grad_norm": 0.11566770076751709,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 1304
    },
    {
      "epoch": 1.9571085782843431,
      "grad_norm": 0.10675927251577377,
      "learning_rate": 0.0001,
      "loss": 0.1829,
      "step": 1305
    },
    {
      "epoch": 1.958608278344331,
      "grad_norm": 0.09865642338991165,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 1306
    },
    {
      "epoch": 1.9601079784043192,
      "grad_norm": 0.11254552006721497,
      "learning_rate": 0.0001,
      "loss": 0.2114,
      "step": 1307
    },
    {
      "epoch": 1.9616076784643073,
      "grad_norm": 0.10800135880708694,
      "learning_rate": 0.0001,
      "loss": 0.1941,
      "step": 1308
    },
    {
      "epoch": 1.9631073785242952,
      "grad_norm": 0.1015748381614685,
      "learning_rate": 0.0001,
      "loss": 0.2086,
      "step": 1309
    },
    {
      "epoch": 1.964607078584283,
      "grad_norm": 0.10533608496189117,
      "learning_rate": 0.0001,
      "loss": 0.1767,
      "step": 1310
    },
    {
      "epoch": 1.9661067786442712,
      "grad_norm": 0.11326481401920319,
      "learning_rate": 0.0001,
      "loss": 0.1741,
      "step": 1311
    },
    {
      "epoch": 1.9676064787042593,
      "grad_norm": 0.14193114638328552,
      "learning_rate": 0.0001,
      "loss": 0.1772,
      "step": 1312
    },
    {
      "epoch": 1.9691061787642472,
      "grad_norm": 0.13034038245677948,
      "learning_rate": 0.0001,
      "loss": 0.2027,
      "step": 1313
    },
    {
      "epoch": 1.970605878824235,
      "grad_norm": 0.10747424513101578,
      "learning_rate": 0.0001,
      "loss": 0.1821,
      "step": 1314
    },
    {
      "epoch": 1.9721055788842232,
      "grad_norm": 0.09827528148889542,
      "learning_rate": 0.0001,
      "loss": 0.1764,
      "step": 1315
    },
    {
      "epoch": 1.9736052789442111,
      "grad_norm": 0.11193425208330154,
      "learning_rate": 0.0001,
      "loss": 0.2161,
      "step": 1316
    },
    {
      "epoch": 1.975104979004199,
      "grad_norm": 0.10157040506601334,
      "learning_rate": 0.0001,
      "loss": 0.1792,
      "step": 1317
    },
    {
      "epoch": 1.9766046790641871,
      "grad_norm": 0.11224399507045746,
      "learning_rate": 0.0001,
      "loss": 0.2101,
      "step": 1318
    },
    {
      "epoch": 1.9781043791241752,
      "grad_norm": 0.10875687748193741,
      "learning_rate": 0.0001,
      "loss": 0.1943,
      "step": 1319
    },
    {
      "epoch": 1.9796040791841631,
      "grad_norm": 0.12616470456123352,
      "learning_rate": 0.0001,
      "loss": 0.1943,
      "step": 1320
    },
    {
      "epoch": 1.981103779244151,
      "grad_norm": 0.10014556348323822,
      "learning_rate": 0.0001,
      "loss": 0.1863,
      "step": 1321
    },
    {
      "epoch": 1.9826034793041392,
      "grad_norm": 0.12799277901649475,
      "learning_rate": 0.0001,
      "loss": 0.1984,
      "step": 1322
    },
    {
      "epoch": 1.9841031793641273,
      "grad_norm": 0.10313446819782257,
      "learning_rate": 0.0001,
      "loss": 0.1914,
      "step": 1323
    },
    {
      "epoch": 1.9856028794241152,
      "grad_norm": 0.10790486633777618,
      "learning_rate": 0.0001,
      "loss": 0.2052,
      "step": 1324
    },
    {
      "epoch": 1.987102579484103,
      "grad_norm": 0.1280086785554886,
      "learning_rate": 0.0001,
      "loss": 0.2025,
      "step": 1325
    },
    {
      "epoch": 1.9886022795440912,
      "grad_norm": 0.10952232033014297,
      "learning_rate": 0.0001,
      "loss": 0.1746,
      "step": 1326
    },
    {
      "epoch": 1.9901019796040793,
      "grad_norm": 0.10483498871326447,
      "learning_rate": 0.0001,
      "loss": 0.1936,
      "step": 1327
    },
    {
      "epoch": 1.9916016796640672,
      "grad_norm": 0.10498010367155075,
      "learning_rate": 0.0001,
      "loss": 0.1965,
      "step": 1328
    },
    {
      "epoch": 1.993101379724055,
      "grad_norm": 0.13246062397956848,
      "learning_rate": 0.0001,
      "loss": 0.2107,
      "step": 1329
    },
    {
      "epoch": 1.9946010797840432,
      "grad_norm": 0.17217986285686493,
      "learning_rate": 0.0001,
      "loss": 0.1897,
      "step": 1330
    },
    {
      "epoch": 1.9961007798440313,
      "grad_norm": 0.11381982266902924,
      "learning_rate": 0.0001,
      "loss": 0.1878,
      "step": 1331
    },
    {
      "epoch": 1.9976004799040192,
      "grad_norm": 0.10454358160495758,
      "learning_rate": 0.0001,
      "loss": 0.1723,
      "step": 1332
    },
    {
      "epoch": 1.9991001799640071,
      "grad_norm": 0.11750949919223785,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 1333
    },
    {
      "epoch": 2.0005998800239952,
      "grad_norm": 0.11394529044628143,
      "learning_rate": 0.0001,
      "loss": 0.1932,
      "step": 1334
    },
    {
      "epoch": 2.0020995800839834,
      "grad_norm": 0.09045672416687012,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 1335
    },
    {
      "epoch": 2.003599280143971,
      "grad_norm": 0.10191138833761215,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 1336
    },
    {
      "epoch": 2.005098980203959,
      "grad_norm": 0.11884186416864395,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 1337
    },
    {
      "epoch": 2.0065986802639473,
      "grad_norm": 0.1123446449637413,
      "learning_rate": 0.0001,
      "loss": 0.1959,
      "step": 1338
    },
    {
      "epoch": 2.0080983803239354,
      "grad_norm": 0.14355210959911346,
      "learning_rate": 0.0001,
      "loss": 0.198,
      "step": 1339
    },
    {
      "epoch": 2.009598080383923,
      "grad_norm": 0.13753601908683777,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 1340
    },
    {
      "epoch": 2.011097780443911,
      "grad_norm": 0.1186554953455925,
      "learning_rate": 0.0001,
      "loss": 0.1835,
      "step": 1341
    },
    {
      "epoch": 2.0125974805038993,
      "grad_norm": 0.1325676143169403,
      "learning_rate": 0.0001,
      "loss": 0.1903,
      "step": 1342
    },
    {
      "epoch": 2.0140971805638874,
      "grad_norm": 0.11098147183656693,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 1343
    },
    {
      "epoch": 2.015596880623875,
      "grad_norm": 0.1332101672887802,
      "learning_rate": 0.0001,
      "loss": 0.1966,
      "step": 1344
    },
    {
      "epoch": 2.017096580683863,
      "grad_norm": 0.12046504020690918,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 1345
    },
    {
      "epoch": 2.0185962807438513,
      "grad_norm": 0.11188671737909317,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 1346
    },
    {
      "epoch": 2.0200959808038395,
      "grad_norm": 0.12844330072402954,
      "learning_rate": 0.0001,
      "loss": 0.1696,
      "step": 1347
    },
    {
      "epoch": 2.021595680863827,
      "grad_norm": 0.09776297211647034,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 1348
    },
    {
      "epoch": 2.0230953809238152,
      "grad_norm": 0.10297209769487381,
      "learning_rate": 0.0001,
      "loss": 0.1793,
      "step": 1349
    },
    {
      "epoch": 2.0245950809838034,
      "grad_norm": 0.13234329223632812,
      "learning_rate": 0.0001,
      "loss": 0.1859,
      "step": 1350
    },
    {
      "epoch": 2.026094781043791,
      "grad_norm": 0.11023452877998352,
      "learning_rate": 0.0001,
      "loss": 0.1866,
      "step": 1351
    },
    {
      "epoch": 2.027594481103779,
      "grad_norm": 0.11164957284927368,
      "learning_rate": 0.0001,
      "loss": 0.1889,
      "step": 1352
    },
    {
      "epoch": 2.0290941811637673,
      "grad_norm": 0.13443391025066376,
      "learning_rate": 0.0001,
      "loss": 0.198,
      "step": 1353
    },
    {
      "epoch": 2.0305938812237554,
      "grad_norm": 0.11258968710899353,
      "learning_rate": 0.0001,
      "loss": 0.1895,
      "step": 1354
    },
    {
      "epoch": 2.032093581283743,
      "grad_norm": 0.10304976999759674,
      "learning_rate": 0.0001,
      "loss": 0.1908,
      "step": 1355
    },
    {
      "epoch": 2.033593281343731,
      "grad_norm": 0.11389762908220291,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 1356
    },
    {
      "epoch": 2.0350929814037193,
      "grad_norm": 0.10394024848937988,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 1357
    },
    {
      "epoch": 2.0365926814637074,
      "grad_norm": 0.1203043982386589,
      "learning_rate": 0.0001,
      "loss": 0.1954,
      "step": 1358
    },
    {
      "epoch": 2.038092381523695,
      "grad_norm": 0.14045514166355133,
      "learning_rate": 0.0001,
      "loss": 0.1851,
      "step": 1359
    },
    {
      "epoch": 2.039592081583683,
      "grad_norm": 0.1122867539525032,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 1360
    },
    {
      "epoch": 2.0410917816436713,
      "grad_norm": 0.18305766582489014,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 1361
    },
    {
      "epoch": 2.0425914817036595,
      "grad_norm": 0.10555829852819443,
      "learning_rate": 0.0001,
      "loss": 0.178,
      "step": 1362
    },
    {
      "epoch": 2.044091181763647,
      "grad_norm": 0.15953749418258667,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 1363
    },
    {
      "epoch": 2.0455908818236352,
      "grad_norm": 0.14146827161312103,
      "learning_rate": 0.0001,
      "loss": 0.1984,
      "step": 1364
    },
    {
      "epoch": 2.0470905818836234,
      "grad_norm": 0.13827067613601685,
      "learning_rate": 0.0001,
      "loss": 0.1862,
      "step": 1365
    },
    {
      "epoch": 2.0485902819436115,
      "grad_norm": 0.10799777507781982,
      "learning_rate": 0.0001,
      "loss": 0.1817,
      "step": 1366
    },
    {
      "epoch": 2.050089982003599,
      "grad_norm": 0.17173685133457184,
      "learning_rate": 0.0001,
      "loss": 0.1808,
      "step": 1367
    },
    {
      "epoch": 2.0515896820635873,
      "grad_norm": 0.11265048384666443,
      "learning_rate": 0.0001,
      "loss": 0.1712,
      "step": 1368
    },
    {
      "epoch": 2.0530893821235754,
      "grad_norm": 0.12063650786876678,
      "learning_rate": 0.0001,
      "loss": 0.17,
      "step": 1369
    },
    {
      "epoch": 2.054589082183563,
      "grad_norm": 0.11855529248714447,
      "learning_rate": 0.0001,
      "loss": 0.1935,
      "step": 1370
    },
    {
      "epoch": 2.056088782243551,
      "grad_norm": 0.12789244949817657,
      "learning_rate": 0.0001,
      "loss": 0.1828,
      "step": 1371
    },
    {
      "epoch": 2.0575884823035393,
      "grad_norm": 0.11790812015533447,
      "learning_rate": 0.0001,
      "loss": 0.1937,
      "step": 1372
    },
    {
      "epoch": 2.0590881823635274,
      "grad_norm": 0.11475680023431778,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 1373
    },
    {
      "epoch": 2.060587882423515,
      "grad_norm": 0.11228393018245697,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 1374
    },
    {
      "epoch": 2.062087582483503,
      "grad_norm": 0.39665138721466064,
      "learning_rate": 0.0001,
      "loss": 0.1889,
      "step": 1375
    },
    {
      "epoch": 2.0635872825434913,
      "grad_norm": 0.17698758840560913,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 1376
    },
    {
      "epoch": 2.0650869826034794,
      "grad_norm": 0.1181354895234108,
      "learning_rate": 0.0001,
      "loss": 0.1717,
      "step": 1377
    },
    {
      "epoch": 2.066586682663467,
      "grad_norm": 0.1423177868127823,
      "learning_rate": 0.0001,
      "loss": 0.1894,
      "step": 1378
    },
    {
      "epoch": 2.0680863827234552,
      "grad_norm": 0.13379888236522675,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 1379
    },
    {
      "epoch": 2.0695860827834434,
      "grad_norm": 0.16714495420455933,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 1380
    },
    {
      "epoch": 2.0710857828434315,
      "grad_norm": 0.12707282602787018,
      "learning_rate": 0.0001,
      "loss": 0.1845,
      "step": 1381
    },
    {
      "epoch": 2.072585482903419,
      "grad_norm": 0.2939074635505676,
      "learning_rate": 0.0001,
      "loss": 0.1845,
      "step": 1382
    },
    {
      "epoch": 2.0740851829634073,
      "grad_norm": 0.1308133602142334,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 1383
    },
    {
      "epoch": 2.0755848830233954,
      "grad_norm": 0.12421587854623795,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 1384
    },
    {
      "epoch": 2.0770845830833835,
      "grad_norm": 0.1377648562192917,
      "learning_rate": 0.0001,
      "loss": 0.1624,
      "step": 1385
    },
    {
      "epoch": 2.078584283143371,
      "grad_norm": 0.12163496017456055,
      "learning_rate": 0.0001,
      "loss": 0.175,
      "step": 1386
    },
    {
      "epoch": 2.0800839832033593,
      "grad_norm": 0.14605847001075745,
      "learning_rate": 0.0001,
      "loss": 0.1816,
      "step": 1387
    },
    {
      "epoch": 2.0815836832633474,
      "grad_norm": 0.11402952671051025,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1388
    },
    {
      "epoch": 2.0830833833233355,
      "grad_norm": 0.11261183023452759,
      "learning_rate": 0.0001,
      "loss": 0.1606,
      "step": 1389
    },
    {
      "epoch": 2.084583083383323,
      "grad_norm": 0.12424281984567642,
      "learning_rate": 0.0001,
      "loss": 0.1677,
      "step": 1390
    },
    {
      "epoch": 2.0860827834433113,
      "grad_norm": 0.10792725533246994,
      "learning_rate": 0.0001,
      "loss": 0.1723,
      "step": 1391
    },
    {
      "epoch": 2.0875824835032994,
      "grad_norm": 0.11098530888557434,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 1392
    },
    {
      "epoch": 2.0890821835632876,
      "grad_norm": 0.20613090693950653,
      "learning_rate": 0.0001,
      "loss": 0.1888,
      "step": 1393
    },
    {
      "epoch": 2.0905818836232752,
      "grad_norm": 0.1403026133775711,
      "learning_rate": 0.0001,
      "loss": 0.1977,
      "step": 1394
    },
    {
      "epoch": 2.0920815836832634,
      "grad_norm": 0.10739510506391525,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 1395
    },
    {
      "epoch": 2.0935812837432515,
      "grad_norm": 0.11115284264087677,
      "learning_rate": 0.0001,
      "loss": 0.185,
      "step": 1396
    },
    {
      "epoch": 2.095080983803239,
      "grad_norm": 0.1127217561006546,
      "learning_rate": 0.0001,
      "loss": 0.167,
      "step": 1397
    },
    {
      "epoch": 2.0965806838632273,
      "grad_norm": 0.11400103569030762,
      "learning_rate": 0.0001,
      "loss": 0.1745,
      "step": 1398
    },
    {
      "epoch": 2.0980803839232154,
      "grad_norm": 0.11582956463098526,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 1399
    },
    {
      "epoch": 2.0995800839832035,
      "grad_norm": 0.11839819699525833,
      "learning_rate": 0.0001,
      "loss": 0.1876,
      "step": 1400
    },
    {
      "epoch": 2.101079784043191,
      "grad_norm": 0.12832161784172058,
      "learning_rate": 0.0001,
      "loss": 0.1899,
      "step": 1401
    },
    {
      "epoch": 2.1025794841031793,
      "grad_norm": 0.12065987288951874,
      "learning_rate": 0.0001,
      "loss": 0.1896,
      "step": 1402
    },
    {
      "epoch": 2.1040791841631674,
      "grad_norm": 0.10985115170478821,
      "learning_rate": 0.0001,
      "loss": 0.1835,
      "step": 1403
    },
    {
      "epoch": 2.1055788842231555,
      "grad_norm": 0.13325734436511993,
      "learning_rate": 0.0001,
      "loss": 0.1837,
      "step": 1404
    },
    {
      "epoch": 2.107078584283143,
      "grad_norm": 0.10164150595664978,
      "learning_rate": 0.0001,
      "loss": 0.1775,
      "step": 1405
    },
    {
      "epoch": 2.1085782843431313,
      "grad_norm": 0.11862672120332718,
      "learning_rate": 0.0001,
      "loss": 0.1763,
      "step": 1406
    },
    {
      "epoch": 2.1100779844031194,
      "grad_norm": 0.11916445195674896,
      "learning_rate": 0.0001,
      "loss": 0.1982,
      "step": 1407
    },
    {
      "epoch": 2.1115776844631076,
      "grad_norm": 0.1204308345913887,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 1408
    },
    {
      "epoch": 2.1130773845230952,
      "grad_norm": 0.14554724097251892,
      "learning_rate": 0.0001,
      "loss": 0.186,
      "step": 1409
    },
    {
      "epoch": 2.1145770845830834,
      "grad_norm": 0.12144340574741364,
      "learning_rate": 0.0001,
      "loss": 0.1671,
      "step": 1410
    },
    {
      "epoch": 2.1160767846430715,
      "grad_norm": 0.11749148368835449,
      "learning_rate": 0.0001,
      "loss": 0.1723,
      "step": 1411
    },
    {
      "epoch": 2.1175764847030596,
      "grad_norm": 0.12422128021717072,
      "learning_rate": 0.0001,
      "loss": 0.1794,
      "step": 1412
    },
    {
      "epoch": 2.1190761847630473,
      "grad_norm": 0.16387178003787994,
      "learning_rate": 0.0001,
      "loss": 0.1988,
      "step": 1413
    },
    {
      "epoch": 2.1205758848230354,
      "grad_norm": 0.1314571350812912,
      "learning_rate": 0.0001,
      "loss": 0.204,
      "step": 1414
    },
    {
      "epoch": 2.1220755848830235,
      "grad_norm": 0.12892167270183563,
      "learning_rate": 0.0001,
      "loss": 0.1834,
      "step": 1415
    },
    {
      "epoch": 2.123575284943011,
      "grad_norm": 0.11995910108089447,
      "learning_rate": 0.0001,
      "loss": 0.1738,
      "step": 1416
    },
    {
      "epoch": 2.1250749850029993,
      "grad_norm": 0.13357432186603546,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 1417
    },
    {
      "epoch": 2.1265746850629874,
      "grad_norm": 0.1252111792564392,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 1418
    },
    {
      "epoch": 2.1280743851229755,
      "grad_norm": 0.11977677792310715,
      "learning_rate": 0.0001,
      "loss": 0.195,
      "step": 1419
    },
    {
      "epoch": 2.129574085182963,
      "grad_norm": 0.13006243109703064,
      "learning_rate": 0.0001,
      "loss": 0.1926,
      "step": 1420
    },
    {
      "epoch": 2.1310737852429513,
      "grad_norm": 0.10271204262971878,
      "learning_rate": 0.0001,
      "loss": 0.1641,
      "step": 1421
    },
    {
      "epoch": 2.1325734853029394,
      "grad_norm": 0.13975858688354492,
      "learning_rate": 0.0001,
      "loss": 0.1936,
      "step": 1422
    },
    {
      "epoch": 2.1340731853629276,
      "grad_norm": 0.1617080569267273,
      "learning_rate": 0.0001,
      "loss": 0.202,
      "step": 1423
    },
    {
      "epoch": 2.1355728854229152,
      "grad_norm": 0.1209556832909584,
      "learning_rate": 0.0001,
      "loss": 0.1846,
      "step": 1424
    },
    {
      "epoch": 2.1370725854829034,
      "grad_norm": 0.12326257675886154,
      "learning_rate": 0.0001,
      "loss": 0.1937,
      "step": 1425
    },
    {
      "epoch": 2.1385722855428915,
      "grad_norm": 0.11879556626081467,
      "learning_rate": 0.0001,
      "loss": 0.1872,
      "step": 1426
    },
    {
      "epoch": 2.1400719856028796,
      "grad_norm": 0.09942197799682617,
      "learning_rate": 0.0001,
      "loss": 0.1642,
      "step": 1427
    },
    {
      "epoch": 2.1415716856628673,
      "grad_norm": 0.1314350962638855,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 1428
    },
    {
      "epoch": 2.1430713857228554,
      "grad_norm": 0.11532276123762131,
      "learning_rate": 0.0001,
      "loss": 0.1772,
      "step": 1429
    },
    {
      "epoch": 2.1445710857828435,
      "grad_norm": 0.11581792682409286,
      "learning_rate": 0.0001,
      "loss": 0.1763,
      "step": 1430
    },
    {
      "epoch": 2.1460707858428316,
      "grad_norm": 0.1308986097574234,
      "learning_rate": 0.0001,
      "loss": 0.1883,
      "step": 1431
    },
    {
      "epoch": 2.1475704859028193,
      "grad_norm": 0.12336254864931107,
      "learning_rate": 0.0001,
      "loss": 0.1644,
      "step": 1432
    },
    {
      "epoch": 2.1490701859628074,
      "grad_norm": 0.12903062999248505,
      "learning_rate": 0.0001,
      "loss": 0.1817,
      "step": 1433
    },
    {
      "epoch": 2.1505698860227955,
      "grad_norm": 0.1252211481332779,
      "learning_rate": 0.0001,
      "loss": 0.1935,
      "step": 1434
    },
    {
      "epoch": 2.1520695860827836,
      "grad_norm": 0.12562844157218933,
      "learning_rate": 0.0001,
      "loss": 0.1977,
      "step": 1435
    },
    {
      "epoch": 2.1535692861427713,
      "grad_norm": 0.1274441033601761,
      "learning_rate": 0.0001,
      "loss": 0.1788,
      "step": 1436
    },
    {
      "epoch": 2.1550689862027594,
      "grad_norm": 0.13441911339759827,
      "learning_rate": 0.0001,
      "loss": 0.1864,
      "step": 1437
    },
    {
      "epoch": 2.1565686862627476,
      "grad_norm": 0.13365444540977478,
      "learning_rate": 0.0001,
      "loss": 0.1797,
      "step": 1438
    },
    {
      "epoch": 2.1580683863227357,
      "grad_norm": 0.14287029206752777,
      "learning_rate": 0.0001,
      "loss": 0.2063,
      "step": 1439
    },
    {
      "epoch": 2.1595680863827234,
      "grad_norm": 0.13327111303806305,
      "learning_rate": 0.0001,
      "loss": 0.1858,
      "step": 1440
    },
    {
      "epoch": 2.1610677864427115,
      "grad_norm": 0.1354130506515503,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 1441
    },
    {
      "epoch": 2.1625674865026996,
      "grad_norm": 0.1178659200668335,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 1442
    },
    {
      "epoch": 2.1640671865626873,
      "grad_norm": 0.10888480395078659,
      "learning_rate": 0.0001,
      "loss": 0.1823,
      "step": 1443
    },
    {
      "epoch": 2.1655668866226754,
      "grad_norm": 0.14453017711639404,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 1444
    },
    {
      "epoch": 2.1670665866826635,
      "grad_norm": 0.13781118392944336,
      "learning_rate": 0.0001,
      "loss": 0.1725,
      "step": 1445
    },
    {
      "epoch": 2.1685662867426516,
      "grad_norm": 0.11691298335790634,
      "learning_rate": 0.0001,
      "loss": 0.1846,
      "step": 1446
    },
    {
      "epoch": 2.1700659868026393,
      "grad_norm": 0.11690015345811844,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1447
    },
    {
      "epoch": 2.1715656868626274,
      "grad_norm": 0.11202078312635422,
      "learning_rate": 0.0001,
      "loss": 0.1908,
      "step": 1448
    },
    {
      "epoch": 2.1730653869226155,
      "grad_norm": 0.14136138558387756,
      "learning_rate": 0.0001,
      "loss": 0.1933,
      "step": 1449
    },
    {
      "epoch": 2.1745650869826036,
      "grad_norm": 0.1279284656047821,
      "learning_rate": 0.0001,
      "loss": 0.1946,
      "step": 1450
    },
    {
      "epoch": 2.1760647870425913,
      "grad_norm": 0.11308436095714569,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 1451
    },
    {
      "epoch": 2.1775644871025794,
      "grad_norm": 0.12986475229263306,
      "learning_rate": 0.0001,
      "loss": 0.1918,
      "step": 1452
    },
    {
      "epoch": 2.1790641871625676,
      "grad_norm": 0.10846157371997833,
      "learning_rate": 0.0001,
      "loss": 0.1639,
      "step": 1453
    },
    {
      "epoch": 2.1805638872225557,
      "grad_norm": 0.12488018721342087,
      "learning_rate": 0.0001,
      "loss": 0.1873,
      "step": 1454
    },
    {
      "epoch": 2.1820635872825433,
      "grad_norm": 0.12430736422538757,
      "learning_rate": 0.0001,
      "loss": 0.1878,
      "step": 1455
    },
    {
      "epoch": 2.1835632873425315,
      "grad_norm": 0.13048528134822845,
      "learning_rate": 0.0001,
      "loss": 0.1971,
      "step": 1456
    },
    {
      "epoch": 2.1850629874025196,
      "grad_norm": 0.13679634034633636,
      "learning_rate": 0.0001,
      "loss": 0.1964,
      "step": 1457
    },
    {
      "epoch": 2.1865626874625077,
      "grad_norm": 0.11721950024366379,
      "learning_rate": 0.0001,
      "loss": 0.196,
      "step": 1458
    },
    {
      "epoch": 2.1880623875224954,
      "grad_norm": 0.12031208723783493,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 1459
    },
    {
      "epoch": 2.1895620875824835,
      "grad_norm": 0.12575438618659973,
      "learning_rate": 0.0001,
      "loss": 0.1776,
      "step": 1460
    },
    {
      "epoch": 2.1910617876424716,
      "grad_norm": 0.12143441289663315,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 1461
    },
    {
      "epoch": 2.1925614877024593,
      "grad_norm": 0.127908393740654,
      "learning_rate": 0.0001,
      "loss": 0.1925,
      "step": 1462
    },
    {
      "epoch": 2.1940611877624474,
      "grad_norm": 0.12096906453371048,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 1463
    },
    {
      "epoch": 2.1955608878224355,
      "grad_norm": 0.13622157275676727,
      "learning_rate": 0.0001,
      "loss": 0.1947,
      "step": 1464
    },
    {
      "epoch": 2.1970605878824236,
      "grad_norm": 0.1258135586977005,
      "learning_rate": 0.0001,
      "loss": 0.2008,
      "step": 1465
    },
    {
      "epoch": 2.1985602879424113,
      "grad_norm": 0.13515809178352356,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 1466
    },
    {
      "epoch": 2.2000599880023994,
      "grad_norm": 0.11171883344650269,
      "learning_rate": 0.0001,
      "loss": 0.1756,
      "step": 1467
    },
    {
      "epoch": 2.2015596880623876,
      "grad_norm": 0.10964460670948029,
      "learning_rate": 0.0001,
      "loss": 0.1654,
      "step": 1468
    },
    {
      "epoch": 2.2030593881223757,
      "grad_norm": 0.1059625968337059,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 1469
    },
    {
      "epoch": 2.2045590881823633,
      "grad_norm": 0.2557312250137329,
      "learning_rate": 0.0001,
      "loss": 0.1828,
      "step": 1470
    },
    {
      "epoch": 2.2060587882423515,
      "grad_norm": 0.13981807231903076,
      "learning_rate": 0.0001,
      "loss": 0.1738,
      "step": 1471
    },
    {
      "epoch": 2.2075584883023396,
      "grad_norm": 0.12279488146305084,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 1472
    },
    {
      "epoch": 2.2090581883623277,
      "grad_norm": 0.1253257393836975,
      "learning_rate": 0.0001,
      "loss": 0.2016,
      "step": 1473
    },
    {
      "epoch": 2.2105578884223154,
      "grad_norm": 0.11814531683921814,
      "learning_rate": 0.0001,
      "loss": 0.174,
      "step": 1474
    },
    {
      "epoch": 2.2120575884823035,
      "grad_norm": 0.13793060183525085,
      "learning_rate": 0.0001,
      "loss": 0.1782,
      "step": 1475
    },
    {
      "epoch": 2.2135572885422916,
      "grad_norm": 0.11964640021324158,
      "learning_rate": 0.0001,
      "loss": 0.1655,
      "step": 1476
    },
    {
      "epoch": 2.2150569886022797,
      "grad_norm": 0.12885810434818268,
      "learning_rate": 0.0001,
      "loss": 0.1946,
      "step": 1477
    },
    {
      "epoch": 2.2165566886622674,
      "grad_norm": 0.12803328037261963,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 1478
    },
    {
      "epoch": 2.2180563887222555,
      "grad_norm": 0.11127304285764694,
      "learning_rate": 0.0001,
      "loss": 0.1673,
      "step": 1479
    },
    {
      "epoch": 2.2195560887822436,
      "grad_norm": 0.12100782245397568,
      "learning_rate": 0.0001,
      "loss": 0.1859,
      "step": 1480
    },
    {
      "epoch": 2.2210557888422318,
      "grad_norm": 0.13096368312835693,
      "learning_rate": 0.0001,
      "loss": 0.1844,
      "step": 1481
    },
    {
      "epoch": 2.2225554889022194,
      "grad_norm": 0.1227923110127449,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 1482
    },
    {
      "epoch": 2.2240551889622076,
      "grad_norm": 0.1245744377374649,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 1483
    },
    {
      "epoch": 2.2255548890221957,
      "grad_norm": 0.149693563580513,
      "learning_rate": 0.0001,
      "loss": 0.1707,
      "step": 1484
    },
    {
      "epoch": 2.227054589082184,
      "grad_norm": 0.17185653746128082,
      "learning_rate": 0.0001,
      "loss": 0.1791,
      "step": 1485
    },
    {
      "epoch": 2.2285542891421715,
      "grad_norm": 0.11427409201860428,
      "learning_rate": 0.0001,
      "loss": 0.1854,
      "step": 1486
    },
    {
      "epoch": 2.2300539892021596,
      "grad_norm": 0.12582719326019287,
      "learning_rate": 0.0001,
      "loss": 0.192,
      "step": 1487
    },
    {
      "epoch": 2.2315536892621477,
      "grad_norm": 0.11164393275976181,
      "learning_rate": 0.0001,
      "loss": 0.1822,
      "step": 1488
    },
    {
      "epoch": 2.2330533893221354,
      "grad_norm": 0.15456223487854004,
      "learning_rate": 0.0001,
      "loss": 0.1838,
      "step": 1489
    },
    {
      "epoch": 2.2345530893821235,
      "grad_norm": 0.12697985768318176,
      "learning_rate": 0.0001,
      "loss": 0.179,
      "step": 1490
    },
    {
      "epoch": 2.2360527894421116,
      "grad_norm": 0.14498528838157654,
      "learning_rate": 0.0001,
      "loss": 0.1898,
      "step": 1491
    },
    {
      "epoch": 2.2375524895020997,
      "grad_norm": 0.11292225867509842,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 1492
    },
    {
      "epoch": 2.2390521895620874,
      "grad_norm": 0.13245107233524323,
      "learning_rate": 0.0001,
      "loss": 0.1854,
      "step": 1493
    },
    {
      "epoch": 2.2405518896220755,
      "grad_norm": 0.14200814068317413,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 1494
    },
    {
      "epoch": 2.2420515896820636,
      "grad_norm": 0.12331343442201614,
      "learning_rate": 0.0001,
      "loss": 0.1892,
      "step": 1495
    },
    {
      "epoch": 2.2435512897420518,
      "grad_norm": 0.11154626309871674,
      "learning_rate": 0.0001,
      "loss": 0.1853,
      "step": 1496
    },
    {
      "epoch": 2.2450509898020394,
      "grad_norm": 0.10661488026380539,
      "learning_rate": 0.0001,
      "loss": 0.1718,
      "step": 1497
    },
    {
      "epoch": 2.2465506898620275,
      "grad_norm": 0.11849700659513474,
      "learning_rate": 0.0001,
      "loss": 0.1817,
      "step": 1498
    },
    {
      "epoch": 2.2480503899220157,
      "grad_norm": 0.13399073481559753,
      "learning_rate": 0.0001,
      "loss": 0.1755,
      "step": 1499
    },
    {
      "epoch": 2.249550089982004,
      "grad_norm": 0.13713759183883667,
      "learning_rate": 0.0001,
      "loss": 0.1966,
      "step": 1500
    },
    {
      "epoch": 2.249550089982004,
      "eval_loss": 0.1978483498096466,
      "eval_runtime": 512.9763,
      "eval_samples_per_second": 4.874,
      "eval_steps_per_second": 1.218,
      "step": 1500
    },
    {
      "epoch": 2.2510497900419915,
      "grad_norm": 0.12214557081460953,
      "learning_rate": 0.0001,
      "loss": 0.1817,
      "step": 1501
    },
    {
      "epoch": 2.2525494901019796,
      "grad_norm": 0.12833036482334137,
      "learning_rate": 0.0001,
      "loss": 0.1878,
      "step": 1502
    },
    {
      "epoch": 2.2540491901619677,
      "grad_norm": 0.113468237221241,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 1503
    },
    {
      "epoch": 2.255548890221956,
      "grad_norm": 0.11749189347028732,
      "learning_rate": 0.0001,
      "loss": 0.1882,
      "step": 1504
    },
    {
      "epoch": 2.2570485902819435,
      "grad_norm": 0.14014704525470734,
      "learning_rate": 0.0001,
      "loss": 0.1914,
      "step": 1505
    },
    {
      "epoch": 2.2585482903419316,
      "grad_norm": 0.11054559797048569,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 1506
    },
    {
      "epoch": 2.2600479904019197,
      "grad_norm": 0.13829879462718964,
      "learning_rate": 0.0001,
      "loss": 0.1859,
      "step": 1507
    },
    {
      "epoch": 2.2615476904619074,
      "grad_norm": 0.11678246408700943,
      "learning_rate": 0.0001,
      "loss": 0.1791,
      "step": 1508
    },
    {
      "epoch": 2.2630473905218955,
      "grad_norm": 0.12568385899066925,
      "learning_rate": 0.0001,
      "loss": 0.1886,
      "step": 1509
    },
    {
      "epoch": 2.2645470905818836,
      "grad_norm": 0.12133607268333435,
      "learning_rate": 0.0001,
      "loss": 0.1951,
      "step": 1510
    },
    {
      "epoch": 2.2660467906418718,
      "grad_norm": 0.1292724907398224,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 1511
    },
    {
      "epoch": 2.26754649070186,
      "grad_norm": 0.14076431095600128,
      "learning_rate": 0.0001,
      "loss": 0.1793,
      "step": 1512
    },
    {
      "epoch": 2.2690461907618475,
      "grad_norm": 0.12086397409439087,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 1513
    },
    {
      "epoch": 2.2705458908218357,
      "grad_norm": 0.11586365848779678,
      "learning_rate": 0.0001,
      "loss": 0.1676,
      "step": 1514
    },
    {
      "epoch": 2.272045590881824,
      "grad_norm": 0.28376850485801697,
      "learning_rate": 0.0001,
      "loss": 0.1969,
      "step": 1515
    },
    {
      "epoch": 2.2735452909418115,
      "grad_norm": 0.12748028337955475,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 1516
    },
    {
      "epoch": 2.2750449910017996,
      "grad_norm": 0.13679449260234833,
      "learning_rate": 0.0001,
      "loss": 0.2018,
      "step": 1517
    },
    {
      "epoch": 2.2765446910617877,
      "grad_norm": 0.11548808217048645,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 1518
    },
    {
      "epoch": 2.278044391121776,
      "grad_norm": 0.10995710641145706,
      "learning_rate": 0.0001,
      "loss": 0.1952,
      "step": 1519
    },
    {
      "epoch": 2.2795440911817635,
      "grad_norm": 0.1151256263256073,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 1520
    },
    {
      "epoch": 2.2810437912417516,
      "grad_norm": 0.1331329494714737,
      "learning_rate": 0.0001,
      "loss": 0.1947,
      "step": 1521
    },
    {
      "epoch": 2.2825434913017397,
      "grad_norm": 0.11756903678178787,
      "learning_rate": 0.0001,
      "loss": 0.1805,
      "step": 1522
    },
    {
      "epoch": 2.284043191361728,
      "grad_norm": 0.13757379353046417,
      "learning_rate": 0.0001,
      "loss": 0.1861,
      "step": 1523
    },
    {
      "epoch": 2.2855428914217155,
      "grad_norm": 0.1365930140018463,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 1524
    },
    {
      "epoch": 2.2870425914817036,
      "grad_norm": 0.11206218600273132,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 1525
    },
    {
      "epoch": 2.2885422915416918,
      "grad_norm": 0.11794757843017578,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 1526
    },
    {
      "epoch": 2.2900419916016794,
      "grad_norm": 0.12861084938049316,
      "learning_rate": 0.0001,
      "loss": 0.179,
      "step": 1527
    },
    {
      "epoch": 2.2915416916616675,
      "grad_norm": 0.10227707028388977,
      "learning_rate": 0.0001,
      "loss": 0.1707,
      "step": 1528
    },
    {
      "epoch": 2.2930413917216557,
      "grad_norm": 0.11803432554006577,
      "learning_rate": 0.0001,
      "loss": 0.1835,
      "step": 1529
    },
    {
      "epoch": 2.294541091781644,
      "grad_norm": 0.14261262118816376,
      "learning_rate": 0.0001,
      "loss": 0.1847,
      "step": 1530
    },
    {
      "epoch": 2.296040791841632,
      "grad_norm": 0.11890842020511627,
      "learning_rate": 0.0001,
      "loss": 0.1946,
      "step": 1531
    },
    {
      "epoch": 2.2975404919016196,
      "grad_norm": 0.11906837671995163,
      "learning_rate": 0.0001,
      "loss": 0.1906,
      "step": 1532
    },
    {
      "epoch": 2.2990401919616077,
      "grad_norm": 0.1087409034371376,
      "learning_rate": 0.0001,
      "loss": 0.1804,
      "step": 1533
    },
    {
      "epoch": 2.300539892021596,
      "grad_norm": 0.1323186308145523,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 1534
    },
    {
      "epoch": 2.3020395920815835,
      "grad_norm": 0.12818512320518494,
      "learning_rate": 0.0001,
      "loss": 0.1602,
      "step": 1535
    },
    {
      "epoch": 2.3035392921415716,
      "grad_norm": 0.11725416779518127,
      "learning_rate": 0.0001,
      "loss": 0.1775,
      "step": 1536
    },
    {
      "epoch": 2.3050389922015597,
      "grad_norm": 0.1245025172829628,
      "learning_rate": 0.0001,
      "loss": 0.1771,
      "step": 1537
    },
    {
      "epoch": 2.306538692261548,
      "grad_norm": 0.1430058628320694,
      "learning_rate": 0.0001,
      "loss": 0.1847,
      "step": 1538
    },
    {
      "epoch": 2.3080383923215355,
      "grad_norm": 0.14070573449134827,
      "learning_rate": 0.0001,
      "loss": 0.1949,
      "step": 1539
    },
    {
      "epoch": 2.3095380923815236,
      "grad_norm": 0.133436918258667,
      "learning_rate": 0.0001,
      "loss": 0.1879,
      "step": 1540
    },
    {
      "epoch": 2.3110377924415118,
      "grad_norm": 0.12218435853719711,
      "learning_rate": 0.0001,
      "loss": 0.1699,
      "step": 1541
    },
    {
      "epoch": 2.3125374925015,
      "grad_norm": 0.11666668206453323,
      "learning_rate": 0.0001,
      "loss": 0.1698,
      "step": 1542
    },
    {
      "epoch": 2.3140371925614875,
      "grad_norm": 0.10581932961940765,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 1543
    },
    {
      "epoch": 2.3155368926214757,
      "grad_norm": 0.13185976445674896,
      "learning_rate": 0.0001,
      "loss": 0.1749,
      "step": 1544
    },
    {
      "epoch": 2.317036592681464,
      "grad_norm": 0.14277558028697968,
      "learning_rate": 0.0001,
      "loss": 0.1739,
      "step": 1545
    },
    {
      "epoch": 2.318536292741452,
      "grad_norm": 0.13189680874347687,
      "learning_rate": 0.0001,
      "loss": 0.1827,
      "step": 1546
    },
    {
      "epoch": 2.3200359928014396,
      "grad_norm": 0.11384214460849762,
      "learning_rate": 0.0001,
      "loss": 0.1872,
      "step": 1547
    },
    {
      "epoch": 2.3215356928614277,
      "grad_norm": 0.11806308478116989,
      "learning_rate": 0.0001,
      "loss": 0.1657,
      "step": 1548
    },
    {
      "epoch": 2.323035392921416,
      "grad_norm": 0.12197243422269821,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 1549
    },
    {
      "epoch": 2.324535092981404,
      "grad_norm": 0.1048872098326683,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 1550
    },
    {
      "epoch": 2.3260347930413916,
      "grad_norm": 0.1217849925160408,
      "learning_rate": 0.0001,
      "loss": 0.186,
      "step": 1551
    },
    {
      "epoch": 2.3275344931013797,
      "grad_norm": 0.11946989595890045,
      "learning_rate": 0.0001,
      "loss": 0.1738,
      "step": 1552
    },
    {
      "epoch": 2.329034193161368,
      "grad_norm": 0.11936935037374496,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1553
    },
    {
      "epoch": 2.3305338932213555,
      "grad_norm": 0.13654567301273346,
      "learning_rate": 0.0001,
      "loss": 0.1826,
      "step": 1554
    },
    {
      "epoch": 2.3320335932813436,
      "grad_norm": 0.11847160011529922,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 1555
    },
    {
      "epoch": 2.3335332933413317,
      "grad_norm": 0.11176714301109314,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 1556
    },
    {
      "epoch": 2.33503299340132,
      "grad_norm": 0.11587793380022049,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 1557
    },
    {
      "epoch": 2.336532693461308,
      "grad_norm": 0.10993897169828415,
      "learning_rate": 0.0001,
      "loss": 0.171,
      "step": 1558
    },
    {
      "epoch": 2.3380323935212957,
      "grad_norm": 0.13613294064998627,
      "learning_rate": 0.0001,
      "loss": 0.1806,
      "step": 1559
    },
    {
      "epoch": 2.339532093581284,
      "grad_norm": 0.12485355138778687,
      "learning_rate": 0.0001,
      "loss": 0.1714,
      "step": 1560
    },
    {
      "epoch": 2.341031793641272,
      "grad_norm": 0.15136758983135223,
      "learning_rate": 0.0001,
      "loss": 0.2057,
      "step": 1561
    },
    {
      "epoch": 2.3425314937012596,
      "grad_norm": 0.10914085060358047,
      "learning_rate": 0.0001,
      "loss": 0.1575,
      "step": 1562
    },
    {
      "epoch": 2.3440311937612477,
      "grad_norm": 0.12283232808113098,
      "learning_rate": 0.0001,
      "loss": 0.1872,
      "step": 1563
    },
    {
      "epoch": 2.345530893821236,
      "grad_norm": 0.12165020406246185,
      "learning_rate": 0.0001,
      "loss": 0.1897,
      "step": 1564
    },
    {
      "epoch": 2.347030593881224,
      "grad_norm": 0.1337425261735916,
      "learning_rate": 0.0001,
      "loss": 0.1947,
      "step": 1565
    },
    {
      "epoch": 2.3485302939412116,
      "grad_norm": 0.11097953468561172,
      "learning_rate": 0.0001,
      "loss": 0.206,
      "step": 1566
    },
    {
      "epoch": 2.3500299940011997,
      "grad_norm": 0.1272190660238266,
      "learning_rate": 0.0001,
      "loss": 0.1787,
      "step": 1567
    },
    {
      "epoch": 2.351529694061188,
      "grad_norm": 0.16249430179595947,
      "learning_rate": 0.0001,
      "loss": 0.1861,
      "step": 1568
    },
    {
      "epoch": 2.353029394121176,
      "grad_norm": 0.10412617772817612,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 1569
    },
    {
      "epoch": 2.3545290941811636,
      "grad_norm": 0.14020077884197235,
      "learning_rate": 0.0001,
      "loss": 0.1844,
      "step": 1570
    },
    {
      "epoch": 2.3560287942411517,
      "grad_norm": 0.11731289327144623,
      "learning_rate": 0.0001,
      "loss": 0.1778,
      "step": 1571
    },
    {
      "epoch": 2.35752849430114,
      "grad_norm": 0.12853196263313293,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 1572
    },
    {
      "epoch": 2.3590281943611275,
      "grad_norm": 0.11193143576383591,
      "learning_rate": 0.0001,
      "loss": 0.19,
      "step": 1573
    },
    {
      "epoch": 2.3605278944211157,
      "grad_norm": 0.11682534962892532,
      "learning_rate": 0.0001,
      "loss": 0.1881,
      "step": 1574
    },
    {
      "epoch": 2.3620275944811038,
      "grad_norm": 0.12332470715045929,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 1575
    },
    {
      "epoch": 2.363527294541092,
      "grad_norm": 0.166977196931839,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1576
    },
    {
      "epoch": 2.36502699460108,
      "grad_norm": 0.12450281530618668,
      "learning_rate": 0.0001,
      "loss": 0.1804,
      "step": 1577
    },
    {
      "epoch": 2.3665266946610677,
      "grad_norm": 0.11648134887218475,
      "learning_rate": 0.0001,
      "loss": 0.1737,
      "step": 1578
    },
    {
      "epoch": 2.368026394721056,
      "grad_norm": 0.12151561677455902,
      "learning_rate": 0.0001,
      "loss": 0.1965,
      "step": 1579
    },
    {
      "epoch": 2.369526094781044,
      "grad_norm": 0.13917748630046844,
      "learning_rate": 0.0001,
      "loss": 0.1922,
      "step": 1580
    },
    {
      "epoch": 2.3710257948410316,
      "grad_norm": 0.12621109187602997,
      "learning_rate": 0.0001,
      "loss": 0.1725,
      "step": 1581
    },
    {
      "epoch": 2.3725254949010197,
      "grad_norm": 0.11594945192337036,
      "learning_rate": 0.0001,
      "loss": 0.1721,
      "step": 1582
    },
    {
      "epoch": 2.374025194961008,
      "grad_norm": 0.12447670102119446,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 1583
    },
    {
      "epoch": 2.375524895020996,
      "grad_norm": 0.12222450971603394,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1584
    },
    {
      "epoch": 2.3770245950809836,
      "grad_norm": 0.11312838643789291,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 1585
    },
    {
      "epoch": 2.3785242951409717,
      "grad_norm": 0.1408761441707611,
      "learning_rate": 0.0001,
      "loss": 0.1967,
      "step": 1586
    },
    {
      "epoch": 2.38002399520096,
      "grad_norm": 0.10837124288082123,
      "learning_rate": 0.0001,
      "loss": 0.1914,
      "step": 1587
    },
    {
      "epoch": 2.381523695260948,
      "grad_norm": 0.11802370101213455,
      "learning_rate": 0.0001,
      "loss": 0.1776,
      "step": 1588
    },
    {
      "epoch": 2.3830233953209357,
      "grad_norm": 0.12846696376800537,
      "learning_rate": 0.0001,
      "loss": 0.1743,
      "step": 1589
    },
    {
      "epoch": 2.3845230953809238,
      "grad_norm": 0.19149531424045563,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 1590
    },
    {
      "epoch": 2.386022795440912,
      "grad_norm": 0.1264667510986328,
      "learning_rate": 0.0001,
      "loss": 0.1895,
      "step": 1591
    },
    {
      "epoch": 2.3875224955009,
      "grad_norm": 0.153544619679451,
      "learning_rate": 0.0001,
      "loss": 0.1691,
      "step": 1592
    },
    {
      "epoch": 2.3890221955608877,
      "grad_norm": 0.14135511219501495,
      "learning_rate": 0.0001,
      "loss": 0.1904,
      "step": 1593
    },
    {
      "epoch": 2.390521895620876,
      "grad_norm": 0.15166126191616058,
      "learning_rate": 0.0001,
      "loss": 0.1835,
      "step": 1594
    },
    {
      "epoch": 2.392021595680864,
      "grad_norm": 0.13892461359500885,
      "learning_rate": 0.0001,
      "loss": 0.1803,
      "step": 1595
    },
    {
      "epoch": 2.393521295740852,
      "grad_norm": 0.12023670971393585,
      "learning_rate": 0.0001,
      "loss": 0.1962,
      "step": 1596
    },
    {
      "epoch": 2.3950209958008397,
      "grad_norm": 0.13450375199317932,
      "learning_rate": 0.0001,
      "loss": 0.1927,
      "step": 1597
    },
    {
      "epoch": 2.396520695860828,
      "grad_norm": 0.11924222856760025,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 1598
    },
    {
      "epoch": 2.398020395920816,
      "grad_norm": 0.1264515221118927,
      "learning_rate": 0.0001,
      "loss": 0.1856,
      "step": 1599
    },
    {
      "epoch": 2.3995200959808036,
      "grad_norm": 0.169064000248909,
      "learning_rate": 0.0001,
      "loss": 0.178,
      "step": 1600
    },
    {
      "epoch": 2.4010197960407917,
      "grad_norm": 0.1210705116391182,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 1601
    },
    {
      "epoch": 2.40251949610078,
      "grad_norm": 0.133287712931633,
      "learning_rate": 0.0001,
      "loss": 0.1978,
      "step": 1602
    },
    {
      "epoch": 2.404019196160768,
      "grad_norm": 0.10953377932310104,
      "learning_rate": 0.0001,
      "loss": 0.1739,
      "step": 1603
    },
    {
      "epoch": 2.405518896220756,
      "grad_norm": 0.1206306591629982,
      "learning_rate": 0.0001,
      "loss": 0.1884,
      "step": 1604
    },
    {
      "epoch": 2.4070185962807438,
      "grad_norm": 0.11797603219747543,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 1605
    },
    {
      "epoch": 2.408518296340732,
      "grad_norm": 0.13182392716407776,
      "learning_rate": 0.0001,
      "loss": 0.1788,
      "step": 1606
    },
    {
      "epoch": 2.41001799640072,
      "grad_norm": 0.11197404563426971,
      "learning_rate": 0.0001,
      "loss": 0.1774,
      "step": 1607
    },
    {
      "epoch": 2.4115176964607077,
      "grad_norm": 0.12424859404563904,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 1608
    },
    {
      "epoch": 2.413017396520696,
      "grad_norm": 0.12683692574501038,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 1609
    },
    {
      "epoch": 2.414517096580684,
      "grad_norm": 0.10104786604642868,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 1610
    },
    {
      "epoch": 2.416016796640672,
      "grad_norm": 0.1373007446527481,
      "learning_rate": 0.0001,
      "loss": 0.1719,
      "step": 1611
    },
    {
      "epoch": 2.4175164967006597,
      "grad_norm": 0.10287985950708389,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 1612
    },
    {
      "epoch": 2.419016196760648,
      "grad_norm": 0.11688258498907089,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 1613
    },
    {
      "epoch": 2.420515896820636,
      "grad_norm": 0.12049045413732529,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 1614
    },
    {
      "epoch": 2.422015596880624,
      "grad_norm": 0.12433835119009018,
      "learning_rate": 0.0001,
      "loss": 0.1923,
      "step": 1615
    },
    {
      "epoch": 2.4235152969406117,
      "grad_norm": 0.1550624668598175,
      "learning_rate": 0.0001,
      "loss": 0.185,
      "step": 1616
    },
    {
      "epoch": 2.4250149970006,
      "grad_norm": 0.1352231800556183,
      "learning_rate": 0.0001,
      "loss": 0.1885,
      "step": 1617
    },
    {
      "epoch": 2.426514697060588,
      "grad_norm": 0.12414133548736572,
      "learning_rate": 0.0001,
      "loss": 0.1821,
      "step": 1618
    },
    {
      "epoch": 2.4280143971205757,
      "grad_norm": 0.1094418317079544,
      "learning_rate": 0.0001,
      "loss": 0.1746,
      "step": 1619
    },
    {
      "epoch": 2.4295140971805638,
      "grad_norm": 0.11162729561328888,
      "learning_rate": 0.0001,
      "loss": 0.1658,
      "step": 1620
    },
    {
      "epoch": 2.431013797240552,
      "grad_norm": 0.13823701441287994,
      "learning_rate": 0.0001,
      "loss": 0.1909,
      "step": 1621
    },
    {
      "epoch": 2.43251349730054,
      "grad_norm": 0.11378909647464752,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 1622
    },
    {
      "epoch": 2.434013197360528,
      "grad_norm": 0.11764761805534363,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 1623
    },
    {
      "epoch": 2.435512897420516,
      "grad_norm": 0.12159795314073563,
      "learning_rate": 0.0001,
      "loss": 0.1864,
      "step": 1624
    },
    {
      "epoch": 2.437012597480504,
      "grad_norm": 0.11444630473852158,
      "learning_rate": 0.0001,
      "loss": 0.2066,
      "step": 1625
    },
    {
      "epoch": 2.438512297540492,
      "grad_norm": 0.11281628161668777,
      "learning_rate": 0.0001,
      "loss": 0.1875,
      "step": 1626
    },
    {
      "epoch": 2.4400119976004797,
      "grad_norm": 0.11200809478759766,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 1627
    },
    {
      "epoch": 2.441511697660468,
      "grad_norm": 0.11423440277576447,
      "learning_rate": 0.0001,
      "loss": 0.1652,
      "step": 1628
    },
    {
      "epoch": 2.443011397720456,
      "grad_norm": 0.110802561044693,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 1629
    },
    {
      "epoch": 2.444511097780444,
      "grad_norm": 0.12813133001327515,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 1630
    },
    {
      "epoch": 2.4460107978404317,
      "grad_norm": 0.12604176998138428,
      "learning_rate": 0.0001,
      "loss": 0.1974,
      "step": 1631
    },
    {
      "epoch": 2.44751049790042,
      "grad_norm": 0.10782629996538162,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 1632
    },
    {
      "epoch": 2.449010197960408,
      "grad_norm": 0.1460835486650467,
      "learning_rate": 0.0001,
      "loss": 0.1813,
      "step": 1633
    },
    {
      "epoch": 2.450509898020396,
      "grad_norm": 0.12495286762714386,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1634
    },
    {
      "epoch": 2.4520095980803838,
      "grad_norm": 0.12862789630889893,
      "learning_rate": 0.0001,
      "loss": 0.2015,
      "step": 1635
    },
    {
      "epoch": 2.453509298140372,
      "grad_norm": 0.13104307651519775,
      "learning_rate": 0.0001,
      "loss": 0.1764,
      "step": 1636
    },
    {
      "epoch": 2.45500899820036,
      "grad_norm": 0.11988405883312225,
      "learning_rate": 0.0001,
      "loss": 0.1783,
      "step": 1637
    },
    {
      "epoch": 2.456508698260348,
      "grad_norm": 0.14299865067005157,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 1638
    },
    {
      "epoch": 2.458008398320336,
      "grad_norm": 0.1335725337266922,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 1639
    },
    {
      "epoch": 2.459508098380324,
      "grad_norm": 0.14241081476211548,
      "learning_rate": 0.0001,
      "loss": 0.1686,
      "step": 1640
    },
    {
      "epoch": 2.461007798440312,
      "grad_norm": 0.18364469707012177,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 1641
    },
    {
      "epoch": 2.4625074985003,
      "grad_norm": 0.14745639264583588,
      "learning_rate": 0.0001,
      "loss": 0.1666,
      "step": 1642
    },
    {
      "epoch": 2.464007198560288,
      "grad_norm": 0.1186748519539833,
      "learning_rate": 0.0001,
      "loss": 0.1678,
      "step": 1643
    },
    {
      "epoch": 2.465506898620276,
      "grad_norm": 0.19409868121147156,
      "learning_rate": 0.0001,
      "loss": 0.1853,
      "step": 1644
    },
    {
      "epoch": 2.467006598680264,
      "grad_norm": 0.1317245364189148,
      "learning_rate": 0.0001,
      "loss": 0.1803,
      "step": 1645
    },
    {
      "epoch": 2.4685062987402517,
      "grad_norm": 0.11133517324924469,
      "learning_rate": 0.0001,
      "loss": 0.1625,
      "step": 1646
    },
    {
      "epoch": 2.47000599880024,
      "grad_norm": 0.10144710540771484,
      "learning_rate": 0.0001,
      "loss": 0.1718,
      "step": 1647
    },
    {
      "epoch": 2.471505698860228,
      "grad_norm": 0.13598927855491638,
      "learning_rate": 0.0001,
      "loss": 0.1964,
      "step": 1648
    },
    {
      "epoch": 2.473005398920216,
      "grad_norm": 0.13840922713279724,
      "learning_rate": 0.0001,
      "loss": 0.1913,
      "step": 1649
    },
    {
      "epoch": 2.4745050989802038,
      "grad_norm": 0.12215764075517654,
      "learning_rate": 0.0001,
      "loss": 0.1859,
      "step": 1650
    },
    {
      "epoch": 2.476004799040192,
      "grad_norm": 0.10408444702625275,
      "learning_rate": 0.0001,
      "loss": 0.1787,
      "step": 1651
    },
    {
      "epoch": 2.47750449910018,
      "grad_norm": 0.12137256562709808,
      "learning_rate": 0.0001,
      "loss": 0.203,
      "step": 1652
    },
    {
      "epoch": 2.479004199160168,
      "grad_norm": 0.1131780594587326,
      "learning_rate": 0.0001,
      "loss": 0.1873,
      "step": 1653
    },
    {
      "epoch": 2.480503899220156,
      "grad_norm": 0.10909420996904373,
      "learning_rate": 0.0001,
      "loss": 0.1689,
      "step": 1654
    },
    {
      "epoch": 2.482003599280144,
      "grad_norm": 0.11896660178899765,
      "learning_rate": 0.0001,
      "loss": 0.1698,
      "step": 1655
    },
    {
      "epoch": 2.483503299340132,
      "grad_norm": 0.144197478890419,
      "learning_rate": 0.0001,
      "loss": 0.1943,
      "step": 1656
    },
    {
      "epoch": 2.48500299940012,
      "grad_norm": 0.1319376677274704,
      "learning_rate": 0.0001,
      "loss": 0.184,
      "step": 1657
    },
    {
      "epoch": 2.486502699460108,
      "grad_norm": 0.13088972866535187,
      "learning_rate": 0.0001,
      "loss": 0.1922,
      "step": 1658
    },
    {
      "epoch": 2.488002399520096,
      "grad_norm": 0.12107213586568832,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 1659
    },
    {
      "epoch": 2.489502099580084,
      "grad_norm": 0.12447915226221085,
      "learning_rate": 0.0001,
      "loss": 0.1919,
      "step": 1660
    },
    {
      "epoch": 2.491001799640072,
      "grad_norm": 0.10891609638929367,
      "learning_rate": 0.0001,
      "loss": 0.1769,
      "step": 1661
    },
    {
      "epoch": 2.49250149970006,
      "grad_norm": 0.11203630268573761,
      "learning_rate": 0.0001,
      "loss": 0.1972,
      "step": 1662
    },
    {
      "epoch": 2.494001199760048,
      "grad_norm": 0.12244243174791336,
      "learning_rate": 0.0001,
      "loss": 0.1902,
      "step": 1663
    },
    {
      "epoch": 2.495500899820036,
      "grad_norm": 0.11353331059217453,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1664
    },
    {
      "epoch": 2.4970005998800238,
      "grad_norm": 0.11601896584033966,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 1665
    },
    {
      "epoch": 2.498500299940012,
      "grad_norm": 0.15564899146556854,
      "learning_rate": 0.0001,
      "loss": 0.1917,
      "step": 1666
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.11241735517978668,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 1667
    },
    {
      "epoch": 2.501499700059988,
      "grad_norm": 0.12930592894554138,
      "learning_rate": 0.0001,
      "loss": 0.1852,
      "step": 1668
    },
    {
      "epoch": 2.5029994001199762,
      "grad_norm": 0.1258339136838913,
      "learning_rate": 0.0001,
      "loss": 0.1777,
      "step": 1669
    },
    {
      "epoch": 2.504499100179964,
      "grad_norm": 0.124520443379879,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 1670
    },
    {
      "epoch": 2.505998800239952,
      "grad_norm": 0.10848431289196014,
      "learning_rate": 0.0001,
      "loss": 0.1643,
      "step": 1671
    },
    {
      "epoch": 2.50749850029994,
      "grad_norm": 0.12531091272830963,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 1672
    },
    {
      "epoch": 2.508998200359928,
      "grad_norm": 0.1263737976551056,
      "learning_rate": 0.0001,
      "loss": 0.1766,
      "step": 1673
    },
    {
      "epoch": 2.510497900419916,
      "grad_norm": 0.12491092085838318,
      "learning_rate": 0.0001,
      "loss": 0.1897,
      "step": 1674
    },
    {
      "epoch": 2.511997600479904,
      "grad_norm": 0.11637905985116959,
      "learning_rate": 0.0001,
      "loss": 0.1696,
      "step": 1675
    },
    {
      "epoch": 2.513497300539892,
      "grad_norm": 0.12992580235004425,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 1676
    },
    {
      "epoch": 2.5149970005998803,
      "grad_norm": 0.13432897627353668,
      "learning_rate": 0.0001,
      "loss": 0.2091,
      "step": 1677
    },
    {
      "epoch": 2.516496700659868,
      "grad_norm": 0.11747226864099503,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 1678
    },
    {
      "epoch": 2.517996400719856,
      "grad_norm": 0.11850479990243912,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 1679
    },
    {
      "epoch": 2.519496100779844,
      "grad_norm": 0.12405320256948471,
      "learning_rate": 0.0001,
      "loss": 0.1869,
      "step": 1680
    },
    {
      "epoch": 2.520995800839832,
      "grad_norm": 0.1129806637763977,
      "learning_rate": 0.0001,
      "loss": 0.1877,
      "step": 1681
    },
    {
      "epoch": 2.52249550089982,
      "grad_norm": 0.11515893787145615,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 1682
    },
    {
      "epoch": 2.523995200959808,
      "grad_norm": 0.11551729589700699,
      "learning_rate": 0.0001,
      "loss": 0.1891,
      "step": 1683
    },
    {
      "epoch": 2.525494901019796,
      "grad_norm": 0.1093878373503685,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 1684
    },
    {
      "epoch": 2.526994601079784,
      "grad_norm": 0.1251341998577118,
      "learning_rate": 0.0001,
      "loss": 0.1856,
      "step": 1685
    },
    {
      "epoch": 2.528494301139772,
      "grad_norm": 0.12641696631908417,
      "learning_rate": 0.0001,
      "loss": 0.1782,
      "step": 1686
    },
    {
      "epoch": 2.52999400119976,
      "grad_norm": 0.13442939519882202,
      "learning_rate": 0.0001,
      "loss": 0.1847,
      "step": 1687
    },
    {
      "epoch": 2.5314937012597483,
      "grad_norm": 0.18609854578971863,
      "learning_rate": 0.0001,
      "loss": 0.1824,
      "step": 1688
    },
    {
      "epoch": 2.532993401319736,
      "grad_norm": 0.12329749017953873,
      "learning_rate": 0.0001,
      "loss": 0.1837,
      "step": 1689
    },
    {
      "epoch": 2.534493101379724,
      "grad_norm": 0.12272083014249802,
      "learning_rate": 0.0001,
      "loss": 0.1836,
      "step": 1690
    },
    {
      "epoch": 2.535992801439712,
      "grad_norm": 0.11631511896848679,
      "learning_rate": 0.0001,
      "loss": 0.1794,
      "step": 1691
    },
    {
      "epoch": 2.5374925014997,
      "grad_norm": 0.12682656943798065,
      "learning_rate": 0.0001,
      "loss": 0.1769,
      "step": 1692
    },
    {
      "epoch": 2.538992201559688,
      "grad_norm": 0.14223451912403107,
      "learning_rate": 0.0001,
      "loss": 0.1923,
      "step": 1693
    },
    {
      "epoch": 2.540491901619676,
      "grad_norm": 0.11932402849197388,
      "learning_rate": 0.0001,
      "loss": 0.1511,
      "step": 1694
    },
    {
      "epoch": 2.541991601679664,
      "grad_norm": 0.15340575575828552,
      "learning_rate": 0.0001,
      "loss": 0.1798,
      "step": 1695
    },
    {
      "epoch": 2.5434913017396523,
      "grad_norm": 0.14504413306713104,
      "learning_rate": 0.0001,
      "loss": 0.2049,
      "step": 1696
    },
    {
      "epoch": 2.54499100179964,
      "grad_norm": 0.1261485368013382,
      "learning_rate": 0.0001,
      "loss": 0.1871,
      "step": 1697
    },
    {
      "epoch": 2.546490701859628,
      "grad_norm": 0.12134396284818649,
      "learning_rate": 0.0001,
      "loss": 0.1803,
      "step": 1698
    },
    {
      "epoch": 2.5479904019196162,
      "grad_norm": 0.10404723137617111,
      "learning_rate": 0.0001,
      "loss": 0.1739,
      "step": 1699
    },
    {
      "epoch": 2.549490101979604,
      "grad_norm": 0.12356866151094437,
      "learning_rate": 0.0001,
      "loss": 0.1936,
      "step": 1700
    },
    {
      "epoch": 2.550989802039592,
      "grad_norm": 0.12284133583307266,
      "learning_rate": 0.0001,
      "loss": 0.1881,
      "step": 1701
    },
    {
      "epoch": 2.55248950209958,
      "grad_norm": 0.12063527852296829,
      "learning_rate": 0.0001,
      "loss": 0.1809,
      "step": 1702
    },
    {
      "epoch": 2.553989202159568,
      "grad_norm": 0.131649911403656,
      "learning_rate": 0.0001,
      "loss": 0.1869,
      "step": 1703
    },
    {
      "epoch": 2.555488902219556,
      "grad_norm": 0.13477446138858795,
      "learning_rate": 0.0001,
      "loss": 0.2003,
      "step": 1704
    },
    {
      "epoch": 2.556988602279544,
      "grad_norm": 0.11684936285018921,
      "learning_rate": 0.0001,
      "loss": 0.1967,
      "step": 1705
    },
    {
      "epoch": 2.558488302339532,
      "grad_norm": 0.15094251930713654,
      "learning_rate": 0.0001,
      "loss": 0.1975,
      "step": 1706
    },
    {
      "epoch": 2.5599880023995203,
      "grad_norm": 0.09928058087825775,
      "learning_rate": 0.0001,
      "loss": 0.1848,
      "step": 1707
    },
    {
      "epoch": 2.561487702459508,
      "grad_norm": 0.11124537885189056,
      "learning_rate": 0.0001,
      "loss": 0.1727,
      "step": 1708
    },
    {
      "epoch": 2.562987402519496,
      "grad_norm": 0.12310124933719635,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 1709
    },
    {
      "epoch": 2.564487102579484,
      "grad_norm": 0.12220422178506851,
      "learning_rate": 0.0001,
      "loss": 0.1783,
      "step": 1710
    },
    {
      "epoch": 2.565986802639472,
      "grad_norm": 0.13107043504714966,
      "learning_rate": 0.0001,
      "loss": 0.1863,
      "step": 1711
    },
    {
      "epoch": 2.56748650269946,
      "grad_norm": 0.10893265902996063,
      "learning_rate": 0.0001,
      "loss": 0.1589,
      "step": 1712
    },
    {
      "epoch": 2.568986202759448,
      "grad_norm": 0.10392855852842331,
      "learning_rate": 0.0001,
      "loss": 0.151,
      "step": 1713
    },
    {
      "epoch": 2.5704859028194362,
      "grad_norm": 0.15382784605026245,
      "learning_rate": 0.0001,
      "loss": 0.1728,
      "step": 1714
    },
    {
      "epoch": 2.5719856028794243,
      "grad_norm": 0.16465605795383453,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 1715
    },
    {
      "epoch": 2.573485302939412,
      "grad_norm": 0.14918658137321472,
      "learning_rate": 0.0001,
      "loss": 0.1871,
      "step": 1716
    },
    {
      "epoch": 2.5749850029994,
      "grad_norm": 0.1335168033838272,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 1717
    },
    {
      "epoch": 2.5764847030593883,
      "grad_norm": 0.12610554695129395,
      "learning_rate": 0.0001,
      "loss": 0.1803,
      "step": 1718
    },
    {
      "epoch": 2.577984403119376,
      "grad_norm": 0.11890510469675064,
      "learning_rate": 0.0001,
      "loss": 0.1864,
      "step": 1719
    },
    {
      "epoch": 2.579484103179364,
      "grad_norm": 0.13461758196353912,
      "learning_rate": 0.0001,
      "loss": 0.1803,
      "step": 1720
    },
    {
      "epoch": 2.580983803239352,
      "grad_norm": 0.13140900433063507,
      "learning_rate": 0.0001,
      "loss": 0.1831,
      "step": 1721
    },
    {
      "epoch": 2.5824835032993403,
      "grad_norm": 0.15174929797649384,
      "learning_rate": 0.0001,
      "loss": 0.1791,
      "step": 1722
    },
    {
      "epoch": 2.5839832033593284,
      "grad_norm": 0.1182527244091034,
      "learning_rate": 0.0001,
      "loss": 0.1822,
      "step": 1723
    },
    {
      "epoch": 2.585482903419316,
      "grad_norm": 0.10890921950340271,
      "learning_rate": 0.0001,
      "loss": 0.1755,
      "step": 1724
    },
    {
      "epoch": 2.586982603479304,
      "grad_norm": 0.1189437210559845,
      "learning_rate": 0.0001,
      "loss": 0.1783,
      "step": 1725
    },
    {
      "epoch": 2.5884823035392923,
      "grad_norm": 0.12626785039901733,
      "learning_rate": 0.0001,
      "loss": 0.1993,
      "step": 1726
    },
    {
      "epoch": 2.58998200359928,
      "grad_norm": 0.5642669200897217,
      "learning_rate": 0.0001,
      "loss": 0.1722,
      "step": 1727
    },
    {
      "epoch": 2.591481703659268,
      "grad_norm": 0.12196270376443863,
      "learning_rate": 0.0001,
      "loss": 0.202,
      "step": 1728
    },
    {
      "epoch": 2.5929814037192562,
      "grad_norm": 0.11524785310029984,
      "learning_rate": 0.0001,
      "loss": 0.1896,
      "step": 1729
    },
    {
      "epoch": 2.594481103779244,
      "grad_norm": 0.10493911802768707,
      "learning_rate": 0.0001,
      "loss": 0.1735,
      "step": 1730
    },
    {
      "epoch": 2.595980803839232,
      "grad_norm": 0.11128006130456924,
      "learning_rate": 0.0001,
      "loss": 0.1718,
      "step": 1731
    },
    {
      "epoch": 2.59748050389922,
      "grad_norm": 0.12484867125749588,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 1732
    },
    {
      "epoch": 2.5989802039592083,
      "grad_norm": 0.11930302530527115,
      "learning_rate": 0.0001,
      "loss": 0.1911,
      "step": 1733
    },
    {
      "epoch": 2.6004799040191964,
      "grad_norm": 0.11741096526384354,
      "learning_rate": 0.0001,
      "loss": 0.1834,
      "step": 1734
    },
    {
      "epoch": 2.601979604079184,
      "grad_norm": 0.12224093824625015,
      "learning_rate": 0.0001,
      "loss": 0.186,
      "step": 1735
    },
    {
      "epoch": 2.603479304139172,
      "grad_norm": 0.12062941491603851,
      "learning_rate": 0.0001,
      "loss": 0.1798,
      "step": 1736
    },
    {
      "epoch": 2.6049790041991603,
      "grad_norm": 0.13806261122226715,
      "learning_rate": 0.0001,
      "loss": 0.1721,
      "step": 1737
    },
    {
      "epoch": 2.606478704259148,
      "grad_norm": 0.13178527355194092,
      "learning_rate": 0.0001,
      "loss": 0.1918,
      "step": 1738
    },
    {
      "epoch": 2.607978404319136,
      "grad_norm": 0.12859369814395905,
      "learning_rate": 0.0001,
      "loss": 0.1824,
      "step": 1739
    },
    {
      "epoch": 2.609478104379124,
      "grad_norm": 0.13186444342136383,
      "learning_rate": 0.0001,
      "loss": 0.191,
      "step": 1740
    },
    {
      "epoch": 2.6109778044391123,
      "grad_norm": 0.13405050337314606,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 1741
    },
    {
      "epoch": 2.6124775044991004,
      "grad_norm": 0.13780145347118378,
      "learning_rate": 0.0001,
      "loss": 0.1973,
      "step": 1742
    },
    {
      "epoch": 2.613977204559088,
      "grad_norm": 0.12208274751901627,
      "learning_rate": 0.0001,
      "loss": 0.1883,
      "step": 1743
    },
    {
      "epoch": 2.6154769046190762,
      "grad_norm": 0.21045194566249847,
      "learning_rate": 0.0001,
      "loss": 0.1915,
      "step": 1744
    },
    {
      "epoch": 2.6169766046790643,
      "grad_norm": 0.12412451952695847,
      "learning_rate": 0.0001,
      "loss": 0.1972,
      "step": 1745
    },
    {
      "epoch": 2.618476304739052,
      "grad_norm": 0.11366412043571472,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 1746
    },
    {
      "epoch": 2.61997600479904,
      "grad_norm": 0.11058443039655685,
      "learning_rate": 0.0001,
      "loss": 0.1826,
      "step": 1747
    },
    {
      "epoch": 2.6214757048590283,
      "grad_norm": 0.11999376118183136,
      "learning_rate": 0.0001,
      "loss": 0.1963,
      "step": 1748
    },
    {
      "epoch": 2.622975404919016,
      "grad_norm": 0.11386211961507797,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 1749
    },
    {
      "epoch": 2.624475104979004,
      "grad_norm": 0.10774262249469757,
      "learning_rate": 0.0001,
      "loss": 0.1748,
      "step": 1750
    },
    {
      "epoch": 2.625974805038992,
      "grad_norm": 0.1311214566230774,
      "learning_rate": 0.0001,
      "loss": 0.1809,
      "step": 1751
    },
    {
      "epoch": 2.6274745050989803,
      "grad_norm": 0.09896843880414963,
      "learning_rate": 0.0001,
      "loss": 0.1673,
      "step": 1752
    },
    {
      "epoch": 2.6289742051589684,
      "grad_norm": 0.11346852034330368,
      "learning_rate": 0.0001,
      "loss": 0.1837,
      "step": 1753
    },
    {
      "epoch": 2.630473905218956,
      "grad_norm": 0.11854532361030579,
      "learning_rate": 0.0001,
      "loss": 0.1832,
      "step": 1754
    },
    {
      "epoch": 2.631973605278944,
      "grad_norm": 0.13153105974197388,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 1755
    },
    {
      "epoch": 2.6334733053389323,
      "grad_norm": 0.13219670951366425,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 1756
    },
    {
      "epoch": 2.63497300539892,
      "grad_norm": 0.11994073539972305,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 1757
    },
    {
      "epoch": 2.636472705458908,
      "grad_norm": 0.10745376348495483,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 1758
    },
    {
      "epoch": 2.6379724055188962,
      "grad_norm": 0.16880612075328827,
      "learning_rate": 0.0001,
      "loss": 0.1851,
      "step": 1759
    },
    {
      "epoch": 2.6394721055788843,
      "grad_norm": 0.11998122930526733,
      "learning_rate": 0.0001,
      "loss": 0.1717,
      "step": 1760
    },
    {
      "epoch": 2.6409718056388725,
      "grad_norm": 0.11981942504644394,
      "learning_rate": 0.0001,
      "loss": 0.1755,
      "step": 1761
    },
    {
      "epoch": 2.64247150569886,
      "grad_norm": 0.12283451110124588,
      "learning_rate": 0.0001,
      "loss": 0.1806,
      "step": 1762
    },
    {
      "epoch": 2.6439712057588483,
      "grad_norm": 0.09928970038890839,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 1763
    },
    {
      "epoch": 2.6454709058188364,
      "grad_norm": 0.12038439512252808,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 1764
    },
    {
      "epoch": 2.646970605878824,
      "grad_norm": 0.15316110849380493,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 1765
    },
    {
      "epoch": 2.648470305938812,
      "grad_norm": 0.10285980254411697,
      "learning_rate": 0.0001,
      "loss": 0.1735,
      "step": 1766
    },
    {
      "epoch": 2.6499700059988003,
      "grad_norm": 0.10109525918960571,
      "learning_rate": 0.0001,
      "loss": 0.17,
      "step": 1767
    },
    {
      "epoch": 2.6514697060587884,
      "grad_norm": 0.12226445227861404,
      "learning_rate": 0.0001,
      "loss": 0.1746,
      "step": 1768
    },
    {
      "epoch": 2.6529694061187765,
      "grad_norm": 0.11557939648628235,
      "learning_rate": 0.0001,
      "loss": 0.1764,
      "step": 1769
    },
    {
      "epoch": 2.654469106178764,
      "grad_norm": 0.12420956045389175,
      "learning_rate": 0.0001,
      "loss": 0.1887,
      "step": 1770
    },
    {
      "epoch": 2.6559688062387523,
      "grad_norm": 0.12493712455034256,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1771
    },
    {
      "epoch": 2.6574685062987404,
      "grad_norm": 0.10972398519515991,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 1772
    },
    {
      "epoch": 2.658968206358728,
      "grad_norm": 0.11694737523794174,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 1773
    },
    {
      "epoch": 2.660467906418716,
      "grad_norm": 0.12067265808582306,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 1774
    },
    {
      "epoch": 2.6619676064787043,
      "grad_norm": 0.12089169025421143,
      "learning_rate": 0.0001,
      "loss": 0.1858,
      "step": 1775
    },
    {
      "epoch": 2.663467306538692,
      "grad_norm": 0.12862628698349,
      "learning_rate": 0.0001,
      "loss": 0.1742,
      "step": 1776
    },
    {
      "epoch": 2.66496700659868,
      "grad_norm": 0.1326567828655243,
      "learning_rate": 0.0001,
      "loss": 0.1798,
      "step": 1777
    },
    {
      "epoch": 2.6664667066586683,
      "grad_norm": 0.13051436841487885,
      "learning_rate": 0.0001,
      "loss": 0.1749,
      "step": 1778
    },
    {
      "epoch": 2.6679664067186564,
      "grad_norm": 0.1292591392993927,
      "learning_rate": 0.0001,
      "loss": 0.1774,
      "step": 1779
    },
    {
      "epoch": 2.6694661067786445,
      "grad_norm": 0.15406136214733124,
      "learning_rate": 0.0001,
      "loss": 0.1939,
      "step": 1780
    },
    {
      "epoch": 2.670965806838632,
      "grad_norm": 0.15440477430820465,
      "learning_rate": 0.0001,
      "loss": 0.1793,
      "step": 1781
    },
    {
      "epoch": 2.6724655068986203,
      "grad_norm": 0.12661299109458923,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 1782
    },
    {
      "epoch": 2.6739652069586084,
      "grad_norm": 0.13046817481517792,
      "learning_rate": 0.0001,
      "loss": 0.1928,
      "step": 1783
    },
    {
      "epoch": 2.675464907018596,
      "grad_norm": 0.37385043501853943,
      "learning_rate": 0.0001,
      "loss": 0.1856,
      "step": 1784
    },
    {
      "epoch": 2.676964607078584,
      "grad_norm": 0.13449932634830475,
      "learning_rate": 0.0001,
      "loss": 0.1901,
      "step": 1785
    },
    {
      "epoch": 2.6784643071385723,
      "grad_norm": 0.15072807669639587,
      "learning_rate": 0.0001,
      "loss": 0.1929,
      "step": 1786
    },
    {
      "epoch": 2.6799640071985604,
      "grad_norm": 0.12608695030212402,
      "learning_rate": 0.0001,
      "loss": 0.1954,
      "step": 1787
    },
    {
      "epoch": 2.6814637072585485,
      "grad_norm": 0.131789430975914,
      "learning_rate": 0.0001,
      "loss": 0.2047,
      "step": 1788
    },
    {
      "epoch": 2.682963407318536,
      "grad_norm": 0.11336474865674973,
      "learning_rate": 0.0001,
      "loss": 0.201,
      "step": 1789
    },
    {
      "epoch": 2.6844631073785243,
      "grad_norm": 0.12156795710325241,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 1790
    },
    {
      "epoch": 2.6859628074385125,
      "grad_norm": 0.10474570095539093,
      "learning_rate": 0.0001,
      "loss": 0.1878,
      "step": 1791
    },
    {
      "epoch": 2.6874625074985,
      "grad_norm": 0.1333962082862854,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 1792
    },
    {
      "epoch": 2.6889622075584882,
      "grad_norm": 0.12977199256420135,
      "learning_rate": 0.0001,
      "loss": 0.1621,
      "step": 1793
    },
    {
      "epoch": 2.6904619076184764,
      "grad_norm": 0.11486152559518814,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1794
    },
    {
      "epoch": 2.691961607678464,
      "grad_norm": 0.13827025890350342,
      "learning_rate": 0.0001,
      "loss": 0.1845,
      "step": 1795
    },
    {
      "epoch": 2.693461307738452,
      "grad_norm": 0.12009039521217346,
      "learning_rate": 0.0001,
      "loss": 0.1753,
      "step": 1796
    },
    {
      "epoch": 2.6949610077984403,
      "grad_norm": 0.11172007024288177,
      "learning_rate": 0.0001,
      "loss": 0.1857,
      "step": 1797
    },
    {
      "epoch": 2.6964607078584284,
      "grad_norm": 0.11776578426361084,
      "learning_rate": 0.0001,
      "loss": 0.1724,
      "step": 1798
    },
    {
      "epoch": 2.6979604079184165,
      "grad_norm": 0.13862501084804535,
      "learning_rate": 0.0001,
      "loss": 0.1957,
      "step": 1799
    },
    {
      "epoch": 2.699460107978404,
      "grad_norm": 0.134917750954628,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 1800
    },
    {
      "epoch": 2.7009598080383923,
      "grad_norm": 0.11987666040658951,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 1801
    },
    {
      "epoch": 2.7024595080983804,
      "grad_norm": 0.1357479691505432,
      "learning_rate": 0.0001,
      "loss": 0.1896,
      "step": 1802
    },
    {
      "epoch": 2.703959208158368,
      "grad_norm": 0.1295139193534851,
      "learning_rate": 0.0001,
      "loss": 0.1827,
      "step": 1803
    },
    {
      "epoch": 2.705458908218356,
      "grad_norm": 0.13304445147514343,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 1804
    },
    {
      "epoch": 2.7069586082783443,
      "grad_norm": 0.11996988952159882,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1805
    },
    {
      "epoch": 2.7084583083383325,
      "grad_norm": 0.12226595729589462,
      "learning_rate": 0.0001,
      "loss": 0.1784,
      "step": 1806
    },
    {
      "epoch": 2.7099580083983206,
      "grad_norm": 0.10799770057201385,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 1807
    },
    {
      "epoch": 2.7114577084583082,
      "grad_norm": 0.08951521664857864,
      "learning_rate": 0.0001,
      "loss": 0.1655,
      "step": 1808
    },
    {
      "epoch": 2.7129574085182964,
      "grad_norm": 0.10810868442058563,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 1809
    },
    {
      "epoch": 2.7144571085782845,
      "grad_norm": 0.14999723434448242,
      "learning_rate": 0.0001,
      "loss": 0.1928,
      "step": 1810
    },
    {
      "epoch": 2.715956808638272,
      "grad_norm": 0.1027151420712471,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 1811
    },
    {
      "epoch": 2.7174565086982603,
      "grad_norm": 0.13663898408412933,
      "learning_rate": 0.0001,
      "loss": 0.1813,
      "step": 1812
    },
    {
      "epoch": 2.7189562087582484,
      "grad_norm": 0.11645244061946869,
      "learning_rate": 0.0001,
      "loss": 0.1827,
      "step": 1813
    },
    {
      "epoch": 2.7204559088182365,
      "grad_norm": 0.10380806773900986,
      "learning_rate": 0.0001,
      "loss": 0.1718,
      "step": 1814
    },
    {
      "epoch": 2.7219556088782246,
      "grad_norm": 0.1421075463294983,
      "learning_rate": 0.0001,
      "loss": 0.1932,
      "step": 1815
    },
    {
      "epoch": 2.7234553089382123,
      "grad_norm": 0.1644163280725479,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 1816
    },
    {
      "epoch": 2.7249550089982004,
      "grad_norm": 0.1290200650691986,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 1817
    },
    {
      "epoch": 2.7264547090581885,
      "grad_norm": 0.16219748556613922,
      "learning_rate": 0.0001,
      "loss": 0.1813,
      "step": 1818
    },
    {
      "epoch": 2.727954409118176,
      "grad_norm": 0.1342364102602005,
      "learning_rate": 0.0001,
      "loss": 0.2022,
      "step": 1819
    },
    {
      "epoch": 2.7294541091781643,
      "grad_norm": 0.10865006595849991,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 1820
    },
    {
      "epoch": 2.7309538092381525,
      "grad_norm": 0.11589564383029938,
      "learning_rate": 0.0001,
      "loss": 0.177,
      "step": 1821
    },
    {
      "epoch": 2.73245350929814,
      "grad_norm": 0.10757366567850113,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 1822
    },
    {
      "epoch": 2.7339532093581282,
      "grad_norm": 0.5574172735214233,
      "learning_rate": 0.0001,
      "loss": 0.1964,
      "step": 1823
    },
    {
      "epoch": 2.7354529094181164,
      "grad_norm": 0.16258655488491058,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1824
    },
    {
      "epoch": 2.7369526094781045,
      "grad_norm": 1.7341400384902954,
      "learning_rate": 0.0001,
      "loss": 0.199,
      "step": 1825
    },
    {
      "epoch": 2.7384523095380926,
      "grad_norm": 0.12595266103744507,
      "learning_rate": 0.0001,
      "loss": 0.1837,
      "step": 1826
    },
    {
      "epoch": 2.7399520095980803,
      "grad_norm": 1.9571655988693237,
      "learning_rate": 0.0001,
      "loss": 0.2318,
      "step": 1827
    },
    {
      "epoch": 2.7414517096580684,
      "grad_norm": 0.10968847572803497,
      "learning_rate": 0.0001,
      "loss": 0.1786,
      "step": 1828
    },
    {
      "epoch": 2.7429514097180565,
      "grad_norm": 0.10787493735551834,
      "learning_rate": 0.0001,
      "loss": 0.1665,
      "step": 1829
    },
    {
      "epoch": 2.744451109778044,
      "grad_norm": 0.1090400218963623,
      "learning_rate": 0.0001,
      "loss": 0.1668,
      "step": 1830
    },
    {
      "epoch": 2.7459508098380323,
      "grad_norm": 0.4947758615016937,
      "learning_rate": 0.0001,
      "loss": 0.1904,
      "step": 1831
    },
    {
      "epoch": 2.7474505098980204,
      "grad_norm": 0.10877551138401031,
      "learning_rate": 0.0001,
      "loss": 0.1639,
      "step": 1832
    },
    {
      "epoch": 2.7489502099580085,
      "grad_norm": 0.12240254133939743,
      "learning_rate": 0.0001,
      "loss": 0.2014,
      "step": 1833
    },
    {
      "epoch": 2.7504499100179967,
      "grad_norm": 0.11398761719465256,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 1834
    },
    {
      "epoch": 2.7519496100779843,
      "grad_norm": 0.12977401912212372,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 1835
    },
    {
      "epoch": 2.7534493101379725,
      "grad_norm": 0.096956767141819,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 1836
    },
    {
      "epoch": 2.7549490101979606,
      "grad_norm": 0.11542142927646637,
      "learning_rate": 0.0001,
      "loss": 0.1779,
      "step": 1837
    },
    {
      "epoch": 2.7564487102579482,
      "grad_norm": 0.11860181391239166,
      "learning_rate": 0.0001,
      "loss": 0.183,
      "step": 1838
    },
    {
      "epoch": 2.7579484103179364,
      "grad_norm": 0.12239851802587509,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 1839
    },
    {
      "epoch": 2.7594481103779245,
      "grad_norm": 0.115880087018013,
      "learning_rate": 0.0001,
      "loss": 0.1735,
      "step": 1840
    },
    {
      "epoch": 2.760947810437912,
      "grad_norm": 0.1181047335267067,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 1841
    },
    {
      "epoch": 2.7624475104979003,
      "grad_norm": 0.15766370296478271,
      "learning_rate": 0.0001,
      "loss": 0.188,
      "step": 1842
    },
    {
      "epoch": 2.7639472105578884,
      "grad_norm": 0.1294090896844864,
      "learning_rate": 0.0001,
      "loss": 0.1763,
      "step": 1843
    },
    {
      "epoch": 2.7654469106178765,
      "grad_norm": 0.10584056377410889,
      "learning_rate": 0.0001,
      "loss": 0.1842,
      "step": 1844
    },
    {
      "epoch": 2.7669466106778646,
      "grad_norm": 0.1204679012298584,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 1845
    },
    {
      "epoch": 2.7684463107378523,
      "grad_norm": 0.12247622758150101,
      "learning_rate": 0.0001,
      "loss": 0.1974,
      "step": 1846
    },
    {
      "epoch": 2.7699460107978404,
      "grad_norm": 0.1953439861536026,
      "learning_rate": 0.0001,
      "loss": 0.1755,
      "step": 1847
    },
    {
      "epoch": 2.7714457108578285,
      "grad_norm": 0.12227944284677505,
      "learning_rate": 0.0001,
      "loss": 0.1793,
      "step": 1848
    },
    {
      "epoch": 2.772945410917816,
      "grad_norm": 0.10831092298030853,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 1849
    },
    {
      "epoch": 2.7744451109778043,
      "grad_norm": 0.12046291679143906,
      "learning_rate": 0.0001,
      "loss": 0.182,
      "step": 1850
    },
    {
      "epoch": 2.7759448110377924,
      "grad_norm": 0.11177531629800797,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 1851
    },
    {
      "epoch": 2.7774445110977806,
      "grad_norm": 0.11566097289323807,
      "learning_rate": 0.0001,
      "loss": 0.1707,
      "step": 1852
    },
    {
      "epoch": 2.7789442111577687,
      "grad_norm": 0.12236277759075165,
      "learning_rate": 0.0001,
      "loss": 0.1849,
      "step": 1853
    },
    {
      "epoch": 2.7804439112177564,
      "grad_norm": 0.13737747073173523,
      "learning_rate": 0.0001,
      "loss": 0.1716,
      "step": 1854
    },
    {
      "epoch": 2.7819436112777445,
      "grad_norm": 0.1464068591594696,
      "learning_rate": 0.0001,
      "loss": 0.1821,
      "step": 1855
    },
    {
      "epoch": 2.7834433113377326,
      "grad_norm": 0.1186831146478653,
      "learning_rate": 0.0001,
      "loss": 0.1819,
      "step": 1856
    },
    {
      "epoch": 2.7849430113977203,
      "grad_norm": 0.13619889318943024,
      "learning_rate": 0.0001,
      "loss": 0.1852,
      "step": 1857
    },
    {
      "epoch": 2.7864427114577084,
      "grad_norm": 0.11472117900848389,
      "learning_rate": 0.0001,
      "loss": 0.1975,
      "step": 1858
    },
    {
      "epoch": 2.7879424115176965,
      "grad_norm": 0.13679763674736023,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1859
    },
    {
      "epoch": 2.7894421115776846,
      "grad_norm": 0.1276862919330597,
      "learning_rate": 0.0001,
      "loss": 0.1816,
      "step": 1860
    },
    {
      "epoch": 2.7909418116376727,
      "grad_norm": 0.13810864090919495,
      "learning_rate": 0.0001,
      "loss": 0.1962,
      "step": 1861
    },
    {
      "epoch": 2.7924415116976604,
      "grad_norm": 0.10223285108804703,
      "learning_rate": 0.0001,
      "loss": 0.1783,
      "step": 1862
    },
    {
      "epoch": 2.7939412117576485,
      "grad_norm": 0.12664033472537994,
      "learning_rate": 0.0001,
      "loss": 0.1875,
      "step": 1863
    },
    {
      "epoch": 2.7954409118176367,
      "grad_norm": 0.10767358541488647,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 1864
    },
    {
      "epoch": 2.7969406118776243,
      "grad_norm": 0.127058207988739,
      "learning_rate": 0.0001,
      "loss": 0.1682,
      "step": 1865
    },
    {
      "epoch": 2.7984403119376124,
      "grad_norm": 0.1241050660610199,
      "learning_rate": 0.0001,
      "loss": 0.1756,
      "step": 1866
    },
    {
      "epoch": 2.7999400119976006,
      "grad_norm": 0.11506153643131256,
      "learning_rate": 0.0001,
      "loss": 0.1716,
      "step": 1867
    },
    {
      "epoch": 2.8014397120575882,
      "grad_norm": 0.12210527062416077,
      "learning_rate": 0.0001,
      "loss": 0.1744,
      "step": 1868
    },
    {
      "epoch": 2.8029394121175764,
      "grad_norm": 0.13762962818145752,
      "learning_rate": 0.0001,
      "loss": 0.1865,
      "step": 1869
    },
    {
      "epoch": 2.8044391121775645,
      "grad_norm": 0.12548410892486572,
      "learning_rate": 0.0001,
      "loss": 0.1889,
      "step": 1870
    },
    {
      "epoch": 2.8059388122375526,
      "grad_norm": 0.15134768187999725,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 1871
    },
    {
      "epoch": 2.8074385122975407,
      "grad_norm": 0.12366972118616104,
      "learning_rate": 0.0001,
      "loss": 0.1837,
      "step": 1872
    },
    {
      "epoch": 2.8089382123575284,
      "grad_norm": 0.16018657386302948,
      "learning_rate": 0.0001,
      "loss": 0.1987,
      "step": 1873
    },
    {
      "epoch": 2.8104379124175165,
      "grad_norm": 0.12928690016269684,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 1874
    },
    {
      "epoch": 2.8119376124775046,
      "grad_norm": 0.14862824976444244,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 1875
    },
    {
      "epoch": 2.8134373125374923,
      "grad_norm": 0.11327381432056427,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 1876
    },
    {
      "epoch": 2.8149370125974804,
      "grad_norm": 0.1270613819360733,
      "learning_rate": 0.0001,
      "loss": 0.1767,
      "step": 1877
    },
    {
      "epoch": 2.8164367126574685,
      "grad_norm": 0.13218310475349426,
      "learning_rate": 0.0001,
      "loss": 0.1934,
      "step": 1878
    },
    {
      "epoch": 2.8179364127174567,
      "grad_norm": 0.12306256592273712,
      "learning_rate": 0.0001,
      "loss": 0.182,
      "step": 1879
    },
    {
      "epoch": 2.8194361127774448,
      "grad_norm": 0.0975460484623909,
      "learning_rate": 0.0001,
      "loss": 0.1764,
      "step": 1880
    },
    {
      "epoch": 2.8209358128374324,
      "grad_norm": 0.10824998468160629,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 1881
    },
    {
      "epoch": 2.8224355128974206,
      "grad_norm": 0.1410248577594757,
      "learning_rate": 0.0001,
      "loss": 0.2006,
      "step": 1882
    },
    {
      "epoch": 2.8239352129574087,
      "grad_norm": 0.10568895190954208,
      "learning_rate": 0.0001,
      "loss": 0.1802,
      "step": 1883
    },
    {
      "epoch": 2.8254349130173964,
      "grad_norm": 0.11513061076402664,
      "learning_rate": 0.0001,
      "loss": 0.172,
      "step": 1884
    },
    {
      "epoch": 2.8269346130773845,
      "grad_norm": 0.13254773616790771,
      "learning_rate": 0.0001,
      "loss": 0.1879,
      "step": 1885
    },
    {
      "epoch": 2.8284343131373726,
      "grad_norm": 0.11752697080373764,
      "learning_rate": 0.0001,
      "loss": 0.1717,
      "step": 1886
    },
    {
      "epoch": 2.8299340131973603,
      "grad_norm": 0.14365950226783752,
      "learning_rate": 0.0001,
      "loss": 0.1853,
      "step": 1887
    },
    {
      "epoch": 2.8314337132573484,
      "grad_norm": 0.11768974363803864,
      "learning_rate": 0.0001,
      "loss": 0.1739,
      "step": 1888
    },
    {
      "epoch": 2.8329334133173365,
      "grad_norm": 0.10816986113786697,
      "learning_rate": 0.0001,
      "loss": 0.1846,
      "step": 1889
    },
    {
      "epoch": 2.8344331133773246,
      "grad_norm": 0.11046109348535538,
      "learning_rate": 0.0001,
      "loss": 0.1737,
      "step": 1890
    },
    {
      "epoch": 2.8359328134373127,
      "grad_norm": 0.09743666648864746,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 1891
    },
    {
      "epoch": 2.8374325134973004,
      "grad_norm": 0.1293822079896927,
      "learning_rate": 0.0001,
      "loss": 0.1852,
      "step": 1892
    },
    {
      "epoch": 2.8389322135572885,
      "grad_norm": 0.11825654655694962,
      "learning_rate": 0.0001,
      "loss": 0.1705,
      "step": 1893
    },
    {
      "epoch": 2.8404319136172766,
      "grad_norm": 0.11342725902795792,
      "learning_rate": 0.0001,
      "loss": 0.1992,
      "step": 1894
    },
    {
      "epoch": 2.8419316136772643,
      "grad_norm": 0.12771157920360565,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 1895
    },
    {
      "epoch": 2.8434313137372524,
      "grad_norm": 0.11684658378362656,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 1896
    },
    {
      "epoch": 2.8449310137972406,
      "grad_norm": 0.109273262321949,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 1897
    },
    {
      "epoch": 2.8464307138572287,
      "grad_norm": 0.16755396127700806,
      "learning_rate": 0.0001,
      "loss": 0.1907,
      "step": 1898
    },
    {
      "epoch": 2.847930413917217,
      "grad_norm": 0.12476047873497009,
      "learning_rate": 0.0001,
      "loss": 0.1722,
      "step": 1899
    },
    {
      "epoch": 2.8494301139772045,
      "grad_norm": 0.12008409202098846,
      "learning_rate": 0.0001,
      "loss": 0.1793,
      "step": 1900
    },
    {
      "epoch": 2.8509298140371926,
      "grad_norm": 0.13526643812656403,
      "learning_rate": 0.0001,
      "loss": 0.1929,
      "step": 1901
    },
    {
      "epoch": 2.8524295140971807,
      "grad_norm": 0.119613416492939,
      "learning_rate": 0.0001,
      "loss": 0.1828,
      "step": 1902
    },
    {
      "epoch": 2.8539292141571684,
      "grad_norm": 0.12178300321102142,
      "learning_rate": 0.0001,
      "loss": 0.1899,
      "step": 1903
    },
    {
      "epoch": 2.8554289142171565,
      "grad_norm": 0.1246182918548584,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 1904
    },
    {
      "epoch": 2.8569286142771446,
      "grad_norm": 0.1495354026556015,
      "learning_rate": 0.0001,
      "loss": 0.1917,
      "step": 1905
    },
    {
      "epoch": 2.8584283143371327,
      "grad_norm": 0.11776785552501678,
      "learning_rate": 0.0001,
      "loss": 0.1863,
      "step": 1906
    },
    {
      "epoch": 2.8599280143971204,
      "grad_norm": 0.1402805596590042,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 1907
    },
    {
      "epoch": 2.8614277144571085,
      "grad_norm": 0.1297796219587326,
      "learning_rate": 0.0001,
      "loss": 0.1759,
      "step": 1908
    },
    {
      "epoch": 2.8629274145170966,
      "grad_norm": 0.13965237140655518,
      "learning_rate": 0.0001,
      "loss": 0.1973,
      "step": 1909
    },
    {
      "epoch": 2.8644271145770848,
      "grad_norm": 0.796664834022522,
      "learning_rate": 0.0001,
      "loss": 0.1965,
      "step": 1910
    },
    {
      "epoch": 2.8659268146370724,
      "grad_norm": 0.10559115558862686,
      "learning_rate": 0.0001,
      "loss": 0.1792,
      "step": 1911
    },
    {
      "epoch": 2.8674265146970606,
      "grad_norm": 0.1277608722448349,
      "learning_rate": 0.0001,
      "loss": 0.2017,
      "step": 1912
    },
    {
      "epoch": 2.8689262147570487,
      "grad_norm": 0.13507753610610962,
      "learning_rate": 0.0001,
      "loss": 0.1918,
      "step": 1913
    },
    {
      "epoch": 2.8704259148170364,
      "grad_norm": 0.0958542600274086,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 1914
    },
    {
      "epoch": 2.8719256148770245,
      "grad_norm": 0.10716153681278229,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 1915
    },
    {
      "epoch": 2.8734253149370126,
      "grad_norm": 0.13366465270519257,
      "learning_rate": 0.0001,
      "loss": 0.1794,
      "step": 1916
    },
    {
      "epoch": 2.8749250149970007,
      "grad_norm": 0.13070683181285858,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 1917
    },
    {
      "epoch": 2.876424715056989,
      "grad_norm": 0.12207052111625671,
      "learning_rate": 0.0001,
      "loss": 0.1797,
      "step": 1918
    },
    {
      "epoch": 2.8779244151169765,
      "grad_norm": 0.12973874807357788,
      "learning_rate": 0.0001,
      "loss": 0.1815,
      "step": 1919
    },
    {
      "epoch": 2.8794241151769646,
      "grad_norm": 0.17056594789028168,
      "learning_rate": 0.0001,
      "loss": 0.2021,
      "step": 1920
    },
    {
      "epoch": 2.8809238152369527,
      "grad_norm": 0.12815578281879425,
      "learning_rate": 0.0001,
      "loss": 0.1696,
      "step": 1921
    },
    {
      "epoch": 2.8824235152969404,
      "grad_norm": 0.13434268534183502,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 1922
    },
    {
      "epoch": 2.8839232153569285,
      "grad_norm": 0.11815357208251953,
      "learning_rate": 0.0001,
      "loss": 0.1997,
      "step": 1923
    },
    {
      "epoch": 2.8854229154169166,
      "grad_norm": 0.14828535914421082,
      "learning_rate": 0.0001,
      "loss": 0.1868,
      "step": 1924
    },
    {
      "epoch": 2.8869226154769048,
      "grad_norm": 0.10115399956703186,
      "learning_rate": 0.0001,
      "loss": 0.1491,
      "step": 1925
    },
    {
      "epoch": 2.888422315536893,
      "grad_norm": 0.14172998070716858,
      "learning_rate": 0.0001,
      "loss": 0.1835,
      "step": 1926
    },
    {
      "epoch": 2.8899220155968806,
      "grad_norm": 0.12430554628372192,
      "learning_rate": 0.0001,
      "loss": 0.184,
      "step": 1927
    },
    {
      "epoch": 2.8914217156568687,
      "grad_norm": 0.11993053555488586,
      "learning_rate": 0.0001,
      "loss": 0.2,
      "step": 1928
    },
    {
      "epoch": 2.892921415716857,
      "grad_norm": 0.14712782204151154,
      "learning_rate": 0.0001,
      "loss": 0.1846,
      "step": 1929
    },
    {
      "epoch": 2.8944211157768445,
      "grad_norm": 0.11677664518356323,
      "learning_rate": 0.0001,
      "loss": 0.1544,
      "step": 1930
    },
    {
      "epoch": 2.8959208158368326,
      "grad_norm": 0.12976647913455963,
      "learning_rate": 0.0001,
      "loss": 0.1874,
      "step": 1931
    },
    {
      "epoch": 2.8974205158968207,
      "grad_norm": 0.10465677827596664,
      "learning_rate": 0.0001,
      "loss": 0.1851,
      "step": 1932
    },
    {
      "epoch": 2.8989202159568084,
      "grad_norm": 0.10775842517614365,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 1933
    },
    {
      "epoch": 2.9004199160167965,
      "grad_norm": 0.12233913689851761,
      "learning_rate": 0.0001,
      "loss": 0.1675,
      "step": 1934
    },
    {
      "epoch": 2.9019196160767846,
      "grad_norm": 0.12427818775177002,
      "learning_rate": 0.0001,
      "loss": 0.2066,
      "step": 1935
    },
    {
      "epoch": 2.9034193161367727,
      "grad_norm": 0.11057084798812866,
      "learning_rate": 0.0001,
      "loss": 0.1874,
      "step": 1936
    },
    {
      "epoch": 2.904919016196761,
      "grad_norm": 0.15127778053283691,
      "learning_rate": 0.0001,
      "loss": 0.1941,
      "step": 1937
    },
    {
      "epoch": 2.9064187162567485,
      "grad_norm": 0.1491222083568573,
      "learning_rate": 0.0001,
      "loss": 0.1977,
      "step": 1938
    },
    {
      "epoch": 2.9079184163167366,
      "grad_norm": 0.123170405626297,
      "learning_rate": 0.0001,
      "loss": 0.1747,
      "step": 1939
    },
    {
      "epoch": 2.9094181163767248,
      "grad_norm": 0.11847787350416183,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 1940
    },
    {
      "epoch": 2.9109178164367124,
      "grad_norm": 0.27738767862319946,
      "learning_rate": 0.0001,
      "loss": 0.1976,
      "step": 1941
    },
    {
      "epoch": 2.9124175164967006,
      "grad_norm": 0.17225205898284912,
      "learning_rate": 0.0001,
      "loss": 0.1824,
      "step": 1942
    },
    {
      "epoch": 2.9139172165566887,
      "grad_norm": 0.15143850445747375,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 1943
    },
    {
      "epoch": 2.915416916616677,
      "grad_norm": 0.13875733315944672,
      "learning_rate": 0.0001,
      "loss": 0.1954,
      "step": 1944
    },
    {
      "epoch": 2.916916616676665,
      "grad_norm": 0.11900916695594788,
      "learning_rate": 0.0001,
      "loss": 0.1579,
      "step": 1945
    },
    {
      "epoch": 2.9184163167366526,
      "grad_norm": 0.12030021846294403,
      "learning_rate": 0.0001,
      "loss": 0.1581,
      "step": 1946
    },
    {
      "epoch": 2.9199160167966407,
      "grad_norm": 0.12204410135746002,
      "learning_rate": 0.0001,
      "loss": 0.1753,
      "step": 1947
    },
    {
      "epoch": 2.921415716856629,
      "grad_norm": 0.12150703370571136,
      "learning_rate": 0.0001,
      "loss": 0.1841,
      "step": 1948
    },
    {
      "epoch": 2.9229154169166165,
      "grad_norm": 0.12706856429576874,
      "learning_rate": 0.0001,
      "loss": 0.1783,
      "step": 1949
    },
    {
      "epoch": 2.9244151169766046,
      "grad_norm": 0.14833040535449982,
      "learning_rate": 0.0001,
      "loss": 0.1838,
      "step": 1950
    },
    {
      "epoch": 2.9259148170365927,
      "grad_norm": 0.12241457402706146,
      "learning_rate": 0.0001,
      "loss": 0.1813,
      "step": 1951
    },
    {
      "epoch": 2.927414517096581,
      "grad_norm": 0.1191253513097763,
      "learning_rate": 0.0001,
      "loss": 0.1805,
      "step": 1952
    },
    {
      "epoch": 2.9289142171565685,
      "grad_norm": 0.13246797025203705,
      "learning_rate": 0.0001,
      "loss": 0.1857,
      "step": 1953
    },
    {
      "epoch": 2.9304139172165566,
      "grad_norm": 0.1125427708029747,
      "learning_rate": 0.0001,
      "loss": 0.1711,
      "step": 1954
    },
    {
      "epoch": 2.9319136172765448,
      "grad_norm": 0.1179136335849762,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 1955
    },
    {
      "epoch": 2.933413317336533,
      "grad_norm": 0.1220911294221878,
      "learning_rate": 0.0001,
      "loss": 0.2024,
      "step": 1956
    },
    {
      "epoch": 2.9349130173965206,
      "grad_norm": 0.12365742027759552,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 1957
    },
    {
      "epoch": 2.9364127174565087,
      "grad_norm": 0.1205497458577156,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 1958
    },
    {
      "epoch": 2.937912417516497,
      "grad_norm": 0.11909482628107071,
      "learning_rate": 0.0001,
      "loss": 0.1742,
      "step": 1959
    },
    {
      "epoch": 2.9394121175764845,
      "grad_norm": 0.11437801271677017,
      "learning_rate": 0.0001,
      "loss": 0.1865,
      "step": 1960
    },
    {
      "epoch": 2.9409118176364726,
      "grad_norm": 0.10962878167629242,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 1961
    },
    {
      "epoch": 2.9424115176964607,
      "grad_norm": 0.11287946999073029,
      "learning_rate": 0.0001,
      "loss": 0.1642,
      "step": 1962
    },
    {
      "epoch": 2.943911217756449,
      "grad_norm": 0.13095687329769135,
      "learning_rate": 0.0001,
      "loss": 0.1874,
      "step": 1963
    },
    {
      "epoch": 2.945410917816437,
      "grad_norm": 0.12211688607931137,
      "learning_rate": 0.0001,
      "loss": 0.1827,
      "step": 1964
    },
    {
      "epoch": 2.9469106178764246,
      "grad_norm": 0.12319216877222061,
      "learning_rate": 0.0001,
      "loss": 0.1784,
      "step": 1965
    },
    {
      "epoch": 2.9484103179364127,
      "grad_norm": 0.12559646368026733,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 1966
    },
    {
      "epoch": 2.949910017996401,
      "grad_norm": 0.12849238514900208,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 1967
    },
    {
      "epoch": 2.9514097180563885,
      "grad_norm": 0.11981936544179916,
      "learning_rate": 0.0001,
      "loss": 0.1909,
      "step": 1968
    },
    {
      "epoch": 2.9529094181163766,
      "grad_norm": 0.1341596245765686,
      "learning_rate": 0.0001,
      "loss": 0.1869,
      "step": 1969
    },
    {
      "epoch": 2.9544091181763648,
      "grad_norm": 0.14692486822605133,
      "learning_rate": 0.0001,
      "loss": 0.1893,
      "step": 1970
    },
    {
      "epoch": 2.955908818236353,
      "grad_norm": 0.13126905262470245,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 1971
    },
    {
      "epoch": 2.957408518296341,
      "grad_norm": 0.11863941699266434,
      "learning_rate": 0.0001,
      "loss": 0.1657,
      "step": 1972
    },
    {
      "epoch": 2.9589082183563287,
      "grad_norm": 0.12588311731815338,
      "learning_rate": 0.0001,
      "loss": 0.1949,
      "step": 1973
    },
    {
      "epoch": 2.960407918416317,
      "grad_norm": 0.12339244782924652,
      "learning_rate": 0.0001,
      "loss": 0.1893,
      "step": 1974
    },
    {
      "epoch": 2.961907618476305,
      "grad_norm": 0.14014145731925964,
      "learning_rate": 0.0001,
      "loss": 0.1778,
      "step": 1975
    },
    {
      "epoch": 2.9634073185362926,
      "grad_norm": 0.12847109138965607,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 1976
    },
    {
      "epoch": 2.9649070185962807,
      "grad_norm": 0.10852473974227905,
      "learning_rate": 0.0001,
      "loss": 0.1763,
      "step": 1977
    },
    {
      "epoch": 2.966406718656269,
      "grad_norm": 0.1321982592344284,
      "learning_rate": 0.0001,
      "loss": 0.1749,
      "step": 1978
    },
    {
      "epoch": 2.9679064187162565,
      "grad_norm": 0.12342123687267303,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 1979
    },
    {
      "epoch": 2.9694061187762446,
      "grad_norm": 0.12234653532505035,
      "learning_rate": 0.0001,
      "loss": 0.1924,
      "step": 1980
    },
    {
      "epoch": 2.9709058188362327,
      "grad_norm": 0.10907694697380066,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 1981
    },
    {
      "epoch": 2.972405518896221,
      "grad_norm": 0.12469431012868881,
      "learning_rate": 0.0001,
      "loss": 0.183,
      "step": 1982
    },
    {
      "epoch": 2.973905218956209,
      "grad_norm": 0.13172170519828796,
      "learning_rate": 0.0001,
      "loss": 0.1771,
      "step": 1983
    },
    {
      "epoch": 2.9754049190161966,
      "grad_norm": 0.13618722558021545,
      "learning_rate": 0.0001,
      "loss": 0.1851,
      "step": 1984
    },
    {
      "epoch": 2.9769046190761848,
      "grad_norm": 0.12734121084213257,
      "learning_rate": 0.0001,
      "loss": 0.182,
      "step": 1985
    },
    {
      "epoch": 2.978404319136173,
      "grad_norm": 0.11959897726774216,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 1986
    },
    {
      "epoch": 2.9799040191961605,
      "grad_norm": 0.12680786848068237,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 1987
    },
    {
      "epoch": 2.9814037192561487,
      "grad_norm": 0.12224140018224716,
      "learning_rate": 0.0001,
      "loss": 0.18,
      "step": 1988
    },
    {
      "epoch": 2.982903419316137,
      "grad_norm": 0.11544617265462875,
      "learning_rate": 0.0001,
      "loss": 0.1708,
      "step": 1989
    },
    {
      "epoch": 2.984403119376125,
      "grad_norm": 0.12901915609836578,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 1990
    },
    {
      "epoch": 2.985902819436113,
      "grad_norm": 0.1196020245552063,
      "learning_rate": 0.0001,
      "loss": 0.1749,
      "step": 1991
    },
    {
      "epoch": 2.9874025194961007,
      "grad_norm": 0.11243946105241776,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 1992
    },
    {
      "epoch": 2.988902219556089,
      "grad_norm": 0.12999899685382843,
      "learning_rate": 0.0001,
      "loss": 0.188,
      "step": 1993
    },
    {
      "epoch": 2.990401919616077,
      "grad_norm": 0.13553304970264435,
      "learning_rate": 0.0001,
      "loss": 0.1932,
      "step": 1994
    },
    {
      "epoch": 2.9919016196760646,
      "grad_norm": 0.13793857395648956,
      "learning_rate": 0.0001,
      "loss": 0.1841,
      "step": 1995
    },
    {
      "epoch": 2.9934013197360527,
      "grad_norm": 0.10043938457965851,
      "learning_rate": 0.0001,
      "loss": 0.1495,
      "step": 1996
    },
    {
      "epoch": 2.994901019796041,
      "grad_norm": 0.1650233417749405,
      "learning_rate": 0.0001,
      "loss": 0.1884,
      "step": 1997
    },
    {
      "epoch": 2.996400719856029,
      "grad_norm": 0.11997710913419724,
      "learning_rate": 0.0001,
      "loss": 0.1714,
      "step": 1998
    },
    {
      "epoch": 2.9979004199160166,
      "grad_norm": 0.11525654047727585,
      "learning_rate": 0.0001,
      "loss": 0.1782,
      "step": 1999
    },
    {
      "epoch": 2.9994001199760048,
      "grad_norm": 0.19591815769672394,
      "learning_rate": 0.0001,
      "loss": 0.1847,
      "step": 2000
    },
    {
      "epoch": 2.9994001199760048,
      "eval_loss": 0.1940552294254303,
      "eval_runtime": 512.5821,
      "eval_samples_per_second": 4.877,
      "eval_steps_per_second": 1.219,
      "step": 2000
    },
    {
      "epoch": 3.000899820035993,
      "grad_norm": 0.1093670055270195,
      "learning_rate": 0.0001,
      "loss": 0.1727,
      "step": 2001
    },
    {
      "epoch": 3.002399520095981,
      "grad_norm": 0.11282824724912643,
      "learning_rate": 0.0001,
      "loss": 0.1676,
      "step": 2002
    },
    {
      "epoch": 3.0038992201559687,
      "grad_norm": 0.23154115676879883,
      "learning_rate": 0.0001,
      "loss": 0.1769,
      "step": 2003
    },
    {
      "epoch": 3.005398920215957,
      "grad_norm": 0.1243504211306572,
      "learning_rate": 0.0001,
      "loss": 0.1827,
      "step": 2004
    },
    {
      "epoch": 3.006898620275945,
      "grad_norm": 0.11823375523090363,
      "learning_rate": 0.0001,
      "loss": 0.1796,
      "step": 2005
    },
    {
      "epoch": 3.008398320335933,
      "grad_norm": 0.1141437515616417,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2006
    },
    {
      "epoch": 3.0098980203959207,
      "grad_norm": 0.11374568939208984,
      "learning_rate": 0.0001,
      "loss": 0.1584,
      "step": 2007
    },
    {
      "epoch": 3.011397720455909,
      "grad_norm": 0.13223564624786377,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2008
    },
    {
      "epoch": 3.012897420515897,
      "grad_norm": 0.12384903430938721,
      "learning_rate": 0.0001,
      "loss": 0.1542,
      "step": 2009
    },
    {
      "epoch": 3.0143971205758846,
      "grad_norm": 0.14139066636562347,
      "learning_rate": 0.0001,
      "loss": 0.1724,
      "step": 2010
    },
    {
      "epoch": 3.0158968206358727,
      "grad_norm": 0.18687155842781067,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2011
    },
    {
      "epoch": 3.017396520695861,
      "grad_norm": 0.1472642719745636,
      "learning_rate": 0.0001,
      "loss": 0.1712,
      "step": 2012
    },
    {
      "epoch": 3.018896220755849,
      "grad_norm": 0.13683228194713593,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 2013
    },
    {
      "epoch": 3.0203959208158366,
      "grad_norm": 0.15467879176139832,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 2014
    },
    {
      "epoch": 3.0218956208758248,
      "grad_norm": 0.14168399572372437,
      "learning_rate": 0.0001,
      "loss": 0.1693,
      "step": 2015
    },
    {
      "epoch": 3.023395320935813,
      "grad_norm": 0.1399977207183838,
      "learning_rate": 0.0001,
      "loss": 0.1819,
      "step": 2016
    },
    {
      "epoch": 3.024895020995801,
      "grad_norm": 0.1603681594133377,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 2017
    },
    {
      "epoch": 3.0263947210557887,
      "grad_norm": 0.2175350785255432,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 2018
    },
    {
      "epoch": 3.027894421115777,
      "grad_norm": 0.13465426862239838,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2019
    },
    {
      "epoch": 3.029394121175765,
      "grad_norm": 0.1243334710597992,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 2020
    },
    {
      "epoch": 3.030893821235753,
      "grad_norm": 0.128594309091568,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 2021
    },
    {
      "epoch": 3.0323935212957407,
      "grad_norm": 0.1366463452577591,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 2022
    },
    {
      "epoch": 3.033893221355729,
      "grad_norm": 0.13663031160831451,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 2023
    },
    {
      "epoch": 3.035392921415717,
      "grad_norm": 0.11821773648262024,
      "learning_rate": 0.0001,
      "loss": 0.1738,
      "step": 2024
    },
    {
      "epoch": 3.036892621475705,
      "grad_norm": 0.1398952305316925,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2025
    },
    {
      "epoch": 3.0383923215356927,
      "grad_norm": 0.1958177387714386,
      "learning_rate": 0.0001,
      "loss": 0.1597,
      "step": 2026
    },
    {
      "epoch": 3.039892021595681,
      "grad_norm": 0.18181413412094116,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 2027
    },
    {
      "epoch": 3.041391721655669,
      "grad_norm": 0.12986357510089874,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 2028
    },
    {
      "epoch": 3.042891421715657,
      "grad_norm": 0.1252729594707489,
      "learning_rate": 0.0001,
      "loss": 0.1518,
      "step": 2029
    },
    {
      "epoch": 3.0443911217756447,
      "grad_norm": 0.1365792602300644,
      "learning_rate": 0.0001,
      "loss": 0.1556,
      "step": 2030
    },
    {
      "epoch": 3.045890821835633,
      "grad_norm": 0.16297169029712677,
      "learning_rate": 0.0001,
      "loss": 0.172,
      "step": 2031
    },
    {
      "epoch": 3.047390521895621,
      "grad_norm": 0.14296269416809082,
      "learning_rate": 0.0001,
      "loss": 0.1596,
      "step": 2032
    },
    {
      "epoch": 3.0488902219556087,
      "grad_norm": 0.1621278077363968,
      "learning_rate": 0.0001,
      "loss": 0.17,
      "step": 2033
    },
    {
      "epoch": 3.0503899220155968,
      "grad_norm": 0.13536062836647034,
      "learning_rate": 0.0001,
      "loss": 0.1575,
      "step": 2034
    },
    {
      "epoch": 3.051889622075585,
      "grad_norm": 0.15391601622104645,
      "learning_rate": 0.0001,
      "loss": 0.167,
      "step": 2035
    },
    {
      "epoch": 3.053389322135573,
      "grad_norm": 0.16093099117279053,
      "learning_rate": 0.0001,
      "loss": 0.1852,
      "step": 2036
    },
    {
      "epoch": 3.0548890221955607,
      "grad_norm": 0.12863516807556152,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 2037
    },
    {
      "epoch": 3.056388722255549,
      "grad_norm": 0.14082808792591095,
      "learning_rate": 0.0001,
      "loss": 0.1824,
      "step": 2038
    },
    {
      "epoch": 3.057888422315537,
      "grad_norm": 0.14309923350811005,
      "learning_rate": 0.0001,
      "loss": 0.1733,
      "step": 2039
    },
    {
      "epoch": 3.059388122375525,
      "grad_norm": 0.1756204068660736,
      "learning_rate": 0.0001,
      "loss": 0.1584,
      "step": 2040
    },
    {
      "epoch": 3.0608878224355127,
      "grad_norm": 0.14506596326828003,
      "learning_rate": 0.0001,
      "loss": 0.1771,
      "step": 2041
    },
    {
      "epoch": 3.062387522495501,
      "grad_norm": 0.12272991240024567,
      "learning_rate": 0.0001,
      "loss": 0.1481,
      "step": 2042
    },
    {
      "epoch": 3.063887222555489,
      "grad_norm": 0.1703367829322815,
      "learning_rate": 0.0001,
      "loss": 0.1735,
      "step": 2043
    },
    {
      "epoch": 3.065386922615477,
      "grad_norm": 0.15894600749015808,
      "learning_rate": 0.0001,
      "loss": 0.1798,
      "step": 2044
    },
    {
      "epoch": 3.0668866226754647,
      "grad_norm": 0.10899173468351364,
      "learning_rate": 0.0001,
      "loss": 0.1425,
      "step": 2045
    },
    {
      "epoch": 3.068386322735453,
      "grad_norm": 0.14826956391334534,
      "learning_rate": 0.0001,
      "loss": 0.1638,
      "step": 2046
    },
    {
      "epoch": 3.069886022795441,
      "grad_norm": 0.13501997292041779,
      "learning_rate": 0.0001,
      "loss": 0.1571,
      "step": 2047
    },
    {
      "epoch": 3.071385722855429,
      "grad_norm": 0.14710068702697754,
      "learning_rate": 0.0001,
      "loss": 0.1711,
      "step": 2048
    },
    {
      "epoch": 3.0728854229154168,
      "grad_norm": 0.15067754685878754,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 2049
    },
    {
      "epoch": 3.074385122975405,
      "grad_norm": 0.14058753848075867,
      "learning_rate": 0.0001,
      "loss": 0.1637,
      "step": 2050
    },
    {
      "epoch": 3.075884823035393,
      "grad_norm": 0.14564326405525208,
      "learning_rate": 0.0001,
      "loss": 0.1675,
      "step": 2051
    },
    {
      "epoch": 3.077384523095381,
      "grad_norm": 0.20712731778621674,
      "learning_rate": 0.0001,
      "loss": 0.1648,
      "step": 2052
    },
    {
      "epoch": 3.078884223155369,
      "grad_norm": 0.13198858499526978,
      "learning_rate": 0.0001,
      "loss": 0.1709,
      "step": 2053
    },
    {
      "epoch": 3.080383923215357,
      "grad_norm": 0.12841390073299408,
      "learning_rate": 0.0001,
      "loss": 0.1677,
      "step": 2054
    },
    {
      "epoch": 3.081883623275345,
      "grad_norm": 0.12231969833374023,
      "learning_rate": 0.0001,
      "loss": 0.1646,
      "step": 2055
    },
    {
      "epoch": 3.083383323335333,
      "grad_norm": 0.1268451064825058,
      "learning_rate": 0.0001,
      "loss": 0.1711,
      "step": 2056
    },
    {
      "epoch": 3.084883023395321,
      "grad_norm": 0.12027035653591156,
      "learning_rate": 0.0001,
      "loss": 0.1623,
      "step": 2057
    },
    {
      "epoch": 3.086382723455309,
      "grad_norm": 0.14238853752613068,
      "learning_rate": 0.0001,
      "loss": 0.1688,
      "step": 2058
    },
    {
      "epoch": 3.087882423515297,
      "grad_norm": 0.12409152835607529,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 2059
    },
    {
      "epoch": 3.0893821235752847,
      "grad_norm": 0.13619643449783325,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2060
    },
    {
      "epoch": 3.090881823635273,
      "grad_norm": 0.1412304788827896,
      "learning_rate": 0.0001,
      "loss": 0.1693,
      "step": 2061
    },
    {
      "epoch": 3.092381523695261,
      "grad_norm": 0.13549256324768066,
      "learning_rate": 0.0001,
      "loss": 0.174,
      "step": 2062
    },
    {
      "epoch": 3.093881223755249,
      "grad_norm": 0.13656730949878693,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 2063
    },
    {
      "epoch": 3.0953809238152368,
      "grad_norm": 0.17995356023311615,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 2064
    },
    {
      "epoch": 3.096880623875225,
      "grad_norm": 0.12399841099977493,
      "learning_rate": 0.0001,
      "loss": 0.1422,
      "step": 2065
    },
    {
      "epoch": 3.098380323935213,
      "grad_norm": 0.1468234807252884,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2066
    },
    {
      "epoch": 3.099880023995201,
      "grad_norm": 0.13744929432868958,
      "learning_rate": 0.0001,
      "loss": 0.1646,
      "step": 2067
    },
    {
      "epoch": 3.101379724055189,
      "grad_norm": 0.15207451581954956,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2068
    },
    {
      "epoch": 3.102879424115177,
      "grad_norm": 0.1329541951417923,
      "learning_rate": 0.0001,
      "loss": 0.1556,
      "step": 2069
    },
    {
      "epoch": 3.104379124175165,
      "grad_norm": 0.15390385687351227,
      "learning_rate": 0.0001,
      "loss": 0.1626,
      "step": 2070
    },
    {
      "epoch": 3.105878824235153,
      "grad_norm": 0.17798683047294617,
      "learning_rate": 0.0001,
      "loss": 0.1639,
      "step": 2071
    },
    {
      "epoch": 3.107378524295141,
      "grad_norm": 0.13772526383399963,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 2072
    },
    {
      "epoch": 3.108878224355129,
      "grad_norm": 0.14659011363983154,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 2073
    },
    {
      "epoch": 3.110377924415117,
      "grad_norm": 0.14068645238876343,
      "learning_rate": 0.0001,
      "loss": 0.1495,
      "step": 2074
    },
    {
      "epoch": 3.111877624475105,
      "grad_norm": 0.13884073495864868,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 2075
    },
    {
      "epoch": 3.113377324535093,
      "grad_norm": 0.14482291042804718,
      "learning_rate": 0.0001,
      "loss": 0.1685,
      "step": 2076
    },
    {
      "epoch": 3.114877024595081,
      "grad_norm": 0.12422997504472733,
      "learning_rate": 0.0001,
      "loss": 0.1629,
      "step": 2077
    },
    {
      "epoch": 3.116376724655069,
      "grad_norm": 0.12576287984848022,
      "learning_rate": 0.0001,
      "loss": 0.159,
      "step": 2078
    },
    {
      "epoch": 3.1178764247150568,
      "grad_norm": 0.27895283699035645,
      "learning_rate": 0.0001,
      "loss": 0.1885,
      "step": 2079
    },
    {
      "epoch": 3.119376124775045,
      "grad_norm": 0.1343970000743866,
      "learning_rate": 0.0001,
      "loss": 0.1877,
      "step": 2080
    },
    {
      "epoch": 3.120875824835033,
      "grad_norm": 0.14628896117210388,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 2081
    },
    {
      "epoch": 3.122375524895021,
      "grad_norm": 0.12577864527702332,
      "learning_rate": 0.0001,
      "loss": 0.1571,
      "step": 2082
    },
    {
      "epoch": 3.123875224955009,
      "grad_norm": 0.1193658784031868,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2083
    },
    {
      "epoch": 3.125374925014997,
      "grad_norm": 0.14587534964084625,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 2084
    },
    {
      "epoch": 3.126874625074985,
      "grad_norm": 0.16478323936462402,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2085
    },
    {
      "epoch": 3.128374325134973,
      "grad_norm": 0.22396168112754822,
      "learning_rate": 0.0001,
      "loss": 0.174,
      "step": 2086
    },
    {
      "epoch": 3.129874025194961,
      "grad_norm": 0.10528472065925598,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 2087
    },
    {
      "epoch": 3.131373725254949,
      "grad_norm": 0.13231322169303894,
      "learning_rate": 0.0001,
      "loss": 0.1535,
      "step": 2088
    },
    {
      "epoch": 3.132873425314937,
      "grad_norm": 0.14357173442840576,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 2089
    },
    {
      "epoch": 3.134373125374925,
      "grad_norm": 0.13691677153110504,
      "learning_rate": 0.0001,
      "loss": 0.166,
      "step": 2090
    },
    {
      "epoch": 3.135872825434913,
      "grad_norm": 0.11802946776151657,
      "learning_rate": 0.0001,
      "loss": 0.1546,
      "step": 2091
    },
    {
      "epoch": 3.137372525494901,
      "grad_norm": 0.13262398540973663,
      "learning_rate": 0.0001,
      "loss": 0.1435,
      "step": 2092
    },
    {
      "epoch": 3.138872225554889,
      "grad_norm": 0.15243546664714813,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 2093
    },
    {
      "epoch": 3.140371925614877,
      "grad_norm": 0.14119763672351837,
      "learning_rate": 0.0001,
      "loss": 0.1784,
      "step": 2094
    },
    {
      "epoch": 3.141871625674865,
      "grad_norm": 0.17368757724761963,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 2095
    },
    {
      "epoch": 3.143371325734853,
      "grad_norm": 0.1447274535894394,
      "learning_rate": 0.0001,
      "loss": 0.1657,
      "step": 2096
    },
    {
      "epoch": 3.144871025794841,
      "grad_norm": 0.15650257468223572,
      "learning_rate": 0.0001,
      "loss": 0.1614,
      "step": 2097
    },
    {
      "epoch": 3.1463707258548292,
      "grad_norm": 0.13400053977966309,
      "learning_rate": 0.0001,
      "loss": 0.1691,
      "step": 2098
    },
    {
      "epoch": 3.147870425914817,
      "grad_norm": 0.14044679701328278,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 2099
    },
    {
      "epoch": 3.149370125974805,
      "grad_norm": 0.15203292667865753,
      "learning_rate": 0.0001,
      "loss": 0.17,
      "step": 2100
    },
    {
      "epoch": 3.150869826034793,
      "grad_norm": 0.13758042454719543,
      "learning_rate": 0.0001,
      "loss": 0.1518,
      "step": 2101
    },
    {
      "epoch": 3.1523695260947813,
      "grad_norm": 0.13814233243465424,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 2102
    },
    {
      "epoch": 3.153869226154769,
      "grad_norm": 0.13400548696517944,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 2103
    },
    {
      "epoch": 3.155368926214757,
      "grad_norm": 0.1446947455406189,
      "learning_rate": 0.0001,
      "loss": 0.155,
      "step": 2104
    },
    {
      "epoch": 3.156868626274745,
      "grad_norm": 0.1319112330675125,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 2105
    },
    {
      "epoch": 3.158368326334733,
      "grad_norm": 0.14266817271709442,
      "learning_rate": 0.0001,
      "loss": 0.1788,
      "step": 2106
    },
    {
      "epoch": 3.159868026394721,
      "grad_norm": 0.1397714763879776,
      "learning_rate": 0.0001,
      "loss": 0.1639,
      "step": 2107
    },
    {
      "epoch": 3.161367726454709,
      "grad_norm": 0.13471989333629608,
      "learning_rate": 0.0001,
      "loss": 0.1582,
      "step": 2108
    },
    {
      "epoch": 3.162867426514697,
      "grad_norm": 0.14698196947574615,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 2109
    },
    {
      "epoch": 3.164367126574685,
      "grad_norm": 0.1441594809293747,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 2110
    },
    {
      "epoch": 3.165866826634673,
      "grad_norm": 0.1360195428133011,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 2111
    },
    {
      "epoch": 3.167366526694661,
      "grad_norm": 0.13065606355667114,
      "learning_rate": 0.0001,
      "loss": 0.1484,
      "step": 2112
    },
    {
      "epoch": 3.1688662267546492,
      "grad_norm": 0.14209988713264465,
      "learning_rate": 0.0001,
      "loss": 0.1597,
      "step": 2113
    },
    {
      "epoch": 3.170365926814637,
      "grad_norm": 0.1332518309354782,
      "learning_rate": 0.0001,
      "loss": 0.1733,
      "step": 2114
    },
    {
      "epoch": 3.171865626874625,
      "grad_norm": 0.1461939662694931,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 2115
    },
    {
      "epoch": 3.173365326934613,
      "grad_norm": 0.14272849261760712,
      "learning_rate": 0.0001,
      "loss": 0.1713,
      "step": 2116
    },
    {
      "epoch": 3.1748650269946013,
      "grad_norm": 0.13984543085098267,
      "learning_rate": 0.0001,
      "loss": 0.1647,
      "step": 2117
    },
    {
      "epoch": 3.176364727054589,
      "grad_norm": 0.14516684412956238,
      "learning_rate": 0.0001,
      "loss": 0.1716,
      "step": 2118
    },
    {
      "epoch": 3.177864427114577,
      "grad_norm": 0.127563014626503,
      "learning_rate": 0.0001,
      "loss": 0.1544,
      "step": 2119
    },
    {
      "epoch": 3.179364127174565,
      "grad_norm": 0.12901781499385834,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 2120
    },
    {
      "epoch": 3.1808638272345533,
      "grad_norm": 0.11535684764385223,
      "learning_rate": 0.0001,
      "loss": 0.1376,
      "step": 2121
    },
    {
      "epoch": 3.182363527294541,
      "grad_norm": 0.13983163237571716,
      "learning_rate": 0.0001,
      "loss": 0.1724,
      "step": 2122
    },
    {
      "epoch": 3.183863227354529,
      "grad_norm": 0.15426209568977356,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 2123
    },
    {
      "epoch": 3.185362927414517,
      "grad_norm": 0.13682736456394196,
      "learning_rate": 0.0001,
      "loss": 0.1538,
      "step": 2124
    },
    {
      "epoch": 3.186862627474505,
      "grad_norm": 0.1449163854122162,
      "learning_rate": 0.0001,
      "loss": 0.1759,
      "step": 2125
    },
    {
      "epoch": 3.188362327534493,
      "grad_norm": 0.13314439356327057,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 2126
    },
    {
      "epoch": 3.189862027594481,
      "grad_norm": 0.15119870007038116,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2127
    },
    {
      "epoch": 3.1913617276544692,
      "grad_norm": 0.16534575819969177,
      "learning_rate": 0.0001,
      "loss": 0.1421,
      "step": 2128
    },
    {
      "epoch": 3.192861427714457,
      "grad_norm": 0.12714527547359467,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 2129
    },
    {
      "epoch": 3.194361127774445,
      "grad_norm": 0.12206056714057922,
      "learning_rate": 0.0001,
      "loss": 0.1515,
      "step": 2130
    },
    {
      "epoch": 3.195860827834433,
      "grad_norm": 0.11275728046894073,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 2131
    },
    {
      "epoch": 3.1973605278944213,
      "grad_norm": 0.13260214030742645,
      "learning_rate": 0.0001,
      "loss": 0.1595,
      "step": 2132
    },
    {
      "epoch": 3.198860227954409,
      "grad_norm": 0.154123455286026,
      "learning_rate": 0.0001,
      "loss": 0.1775,
      "step": 2133
    },
    {
      "epoch": 3.200359928014397,
      "grad_norm": 0.14813277125358582,
      "learning_rate": 0.0001,
      "loss": 0.1823,
      "step": 2134
    },
    {
      "epoch": 3.201859628074385,
      "grad_norm": 0.14372704923152924,
      "learning_rate": 0.0001,
      "loss": 0.1658,
      "step": 2135
    },
    {
      "epoch": 3.2033593281343733,
      "grad_norm": 0.13764332234859467,
      "learning_rate": 0.0001,
      "loss": 0.1782,
      "step": 2136
    },
    {
      "epoch": 3.204859028194361,
      "grad_norm": 0.12980994582176208,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 2137
    },
    {
      "epoch": 3.206358728254349,
      "grad_norm": 0.17114554345607758,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2138
    },
    {
      "epoch": 3.207858428314337,
      "grad_norm": 0.144230917096138,
      "learning_rate": 0.0001,
      "loss": 0.1867,
      "step": 2139
    },
    {
      "epoch": 3.2093581283743253,
      "grad_norm": 0.16703595221042633,
      "learning_rate": 0.0001,
      "loss": 0.1579,
      "step": 2140
    },
    {
      "epoch": 3.210857828434313,
      "grad_norm": 0.13111244142055511,
      "learning_rate": 0.0001,
      "loss": 0.1724,
      "step": 2141
    },
    {
      "epoch": 3.212357528494301,
      "grad_norm": 0.1797206550836563,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 2142
    },
    {
      "epoch": 3.2138572285542892,
      "grad_norm": 0.14423498511314392,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 2143
    },
    {
      "epoch": 3.215356928614277,
      "grad_norm": 0.15922322869300842,
      "learning_rate": 0.0001,
      "loss": 0.1663,
      "step": 2144
    },
    {
      "epoch": 3.216856628674265,
      "grad_norm": 0.17066028714179993,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 2145
    },
    {
      "epoch": 3.218356328734253,
      "grad_norm": 0.14129143953323364,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 2146
    },
    {
      "epoch": 3.2198560287942413,
      "grad_norm": 0.17622949182987213,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 2147
    },
    {
      "epoch": 3.2213557288542294,
      "grad_norm": 0.14980146288871765,
      "learning_rate": 0.0001,
      "loss": 0.1665,
      "step": 2148
    },
    {
      "epoch": 3.222855428914217,
      "grad_norm": 0.1780267059803009,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 2149
    },
    {
      "epoch": 3.224355128974205,
      "grad_norm": 0.1406751573085785,
      "learning_rate": 0.0001,
      "loss": 0.1682,
      "step": 2150
    },
    {
      "epoch": 3.2258548290341933,
      "grad_norm": 0.15278181433677673,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 2151
    },
    {
      "epoch": 3.227354529094181,
      "grad_norm": 0.12273689359426498,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 2152
    },
    {
      "epoch": 3.228854229154169,
      "grad_norm": 0.13460752367973328,
      "learning_rate": 0.0001,
      "loss": 0.1813,
      "step": 2153
    },
    {
      "epoch": 3.230353929214157,
      "grad_norm": 0.15300323069095612,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 2154
    },
    {
      "epoch": 3.2318536292741453,
      "grad_norm": 0.13824917376041412,
      "learning_rate": 0.0001,
      "loss": 0.1647,
      "step": 2155
    },
    {
      "epoch": 3.233353329334133,
      "grad_norm": 0.12979960441589355,
      "learning_rate": 0.0001,
      "loss": 0.1744,
      "step": 2156
    },
    {
      "epoch": 3.234853029394121,
      "grad_norm": 0.13052664697170258,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 2157
    },
    {
      "epoch": 3.2363527294541092,
      "grad_norm": 0.13764987885951996,
      "learning_rate": 0.0001,
      "loss": 0.1745,
      "step": 2158
    },
    {
      "epoch": 3.2378524295140974,
      "grad_norm": 0.17930348217487335,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 2159
    },
    {
      "epoch": 3.239352129574085,
      "grad_norm": 0.12871061265468597,
      "learning_rate": 0.0001,
      "loss": 0.1728,
      "step": 2160
    },
    {
      "epoch": 3.240851829634073,
      "grad_norm": 0.14328080415725708,
      "learning_rate": 0.0001,
      "loss": 0.1712,
      "step": 2161
    },
    {
      "epoch": 3.2423515296940613,
      "grad_norm": 0.12242987751960754,
      "learning_rate": 0.0001,
      "loss": 0.1629,
      "step": 2162
    },
    {
      "epoch": 3.2438512297540494,
      "grad_norm": 0.13480593264102936,
      "learning_rate": 0.0001,
      "loss": 0.1586,
      "step": 2163
    },
    {
      "epoch": 3.245350929814037,
      "grad_norm": 0.14074236154556274,
      "learning_rate": 0.0001,
      "loss": 0.1635,
      "step": 2164
    },
    {
      "epoch": 3.246850629874025,
      "grad_norm": 0.1423490047454834,
      "learning_rate": 0.0001,
      "loss": 0.1701,
      "step": 2165
    },
    {
      "epoch": 3.2483503299340133,
      "grad_norm": 0.1484915316104889,
      "learning_rate": 0.0001,
      "loss": 0.1679,
      "step": 2166
    },
    {
      "epoch": 3.2498500299940014,
      "grad_norm": 0.21257562935352325,
      "learning_rate": 0.0001,
      "loss": 0.1829,
      "step": 2167
    },
    {
      "epoch": 3.251349730053989,
      "grad_norm": 0.14114543795585632,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2168
    },
    {
      "epoch": 3.252849430113977,
      "grad_norm": 0.13554523885250092,
      "learning_rate": 0.0001,
      "loss": 0.1686,
      "step": 2169
    },
    {
      "epoch": 3.2543491301739653,
      "grad_norm": 0.15158087015151978,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 2170
    },
    {
      "epoch": 3.255848830233953,
      "grad_norm": 0.12256161123514175,
      "learning_rate": 0.0001,
      "loss": 0.1656,
      "step": 2171
    },
    {
      "epoch": 3.257348530293941,
      "grad_norm": 0.13864262402057648,
      "learning_rate": 0.0001,
      "loss": 0.1679,
      "step": 2172
    },
    {
      "epoch": 3.2588482303539292,
      "grad_norm": 0.13738803565502167,
      "learning_rate": 0.0001,
      "loss": 0.1878,
      "step": 2173
    },
    {
      "epoch": 3.2603479304139174,
      "grad_norm": 0.13002556562423706,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 2174
    },
    {
      "epoch": 3.2618476304739055,
      "grad_norm": 0.1329784393310547,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 2175
    },
    {
      "epoch": 3.263347330533893,
      "grad_norm": 0.12974956631660461,
      "learning_rate": 0.0001,
      "loss": 0.1625,
      "step": 2176
    },
    {
      "epoch": 3.2648470305938813,
      "grad_norm": 0.17135536670684814,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 2177
    },
    {
      "epoch": 3.2663467306538694,
      "grad_norm": 0.14413774013519287,
      "learning_rate": 0.0001,
      "loss": 0.1938,
      "step": 2178
    },
    {
      "epoch": 3.267846430713857,
      "grad_norm": 0.1742192953824997,
      "learning_rate": 0.0001,
      "loss": 0.1766,
      "step": 2179
    },
    {
      "epoch": 3.269346130773845,
      "grad_norm": 0.12309630960226059,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 2180
    },
    {
      "epoch": 3.2708458308338333,
      "grad_norm": 0.15542660653591156,
      "learning_rate": 0.0001,
      "loss": 0.1827,
      "step": 2181
    },
    {
      "epoch": 3.2723455308938214,
      "grad_norm": 0.1270674616098404,
      "learning_rate": 0.0001,
      "loss": 0.1738,
      "step": 2182
    },
    {
      "epoch": 3.273845230953809,
      "grad_norm": 0.1374921202659607,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 2183
    },
    {
      "epoch": 3.275344931013797,
      "grad_norm": 0.11538626253604889,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 2184
    },
    {
      "epoch": 3.2768446310737853,
      "grad_norm": 0.14037728309631348,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 2185
    },
    {
      "epoch": 3.2783443311337734,
      "grad_norm": 0.17682157456874847,
      "learning_rate": 0.0001,
      "loss": 0.1749,
      "step": 2186
    },
    {
      "epoch": 3.279844031193761,
      "grad_norm": 0.14288738369941711,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 2187
    },
    {
      "epoch": 3.2813437312537492,
      "grad_norm": 0.14148405194282532,
      "learning_rate": 0.0001,
      "loss": 0.1792,
      "step": 2188
    },
    {
      "epoch": 3.2828434313137373,
      "grad_norm": 0.23259741067886353,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 2189
    },
    {
      "epoch": 3.284343131373725,
      "grad_norm": 0.13169899582862854,
      "learning_rate": 0.0001,
      "loss": 0.1665,
      "step": 2190
    },
    {
      "epoch": 3.285842831433713,
      "grad_norm": 0.1395007073879242,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 2191
    },
    {
      "epoch": 3.2873425314937013,
      "grad_norm": 0.1613176465034485,
      "learning_rate": 0.0001,
      "loss": 0.1706,
      "step": 2192
    },
    {
      "epoch": 3.2888422315536894,
      "grad_norm": 0.12786853313446045,
      "learning_rate": 0.0001,
      "loss": 0.145,
      "step": 2193
    },
    {
      "epoch": 3.2903419316136775,
      "grad_norm": 0.12193407118320465,
      "learning_rate": 0.0001,
      "loss": 0.1403,
      "step": 2194
    },
    {
      "epoch": 3.291841631673665,
      "grad_norm": 0.14096999168395996,
      "learning_rate": 0.0001,
      "loss": 0.1606,
      "step": 2195
    },
    {
      "epoch": 3.2933413317336533,
      "grad_norm": 0.140522763133049,
      "learning_rate": 0.0001,
      "loss": 0.1668,
      "step": 2196
    },
    {
      "epoch": 3.2948410317936414,
      "grad_norm": 0.13317833840847015,
      "learning_rate": 0.0001,
      "loss": 0.1363,
      "step": 2197
    },
    {
      "epoch": 3.296340731853629,
      "grad_norm": 0.18824484944343567,
      "learning_rate": 0.0001,
      "loss": 0.1846,
      "step": 2198
    },
    {
      "epoch": 3.297840431913617,
      "grad_norm": 0.18418322503566742,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 2199
    },
    {
      "epoch": 3.2993401319736053,
      "grad_norm": 0.14106310904026031,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 2200
    },
    {
      "epoch": 3.3008398320335934,
      "grad_norm": 0.11922091245651245,
      "learning_rate": 0.0001,
      "loss": 0.151,
      "step": 2201
    },
    {
      "epoch": 3.302339532093581,
      "grad_norm": 0.14239206910133362,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 2202
    },
    {
      "epoch": 3.3038392321535692,
      "grad_norm": 0.14079344272613525,
      "learning_rate": 0.0001,
      "loss": 0.1712,
      "step": 2203
    },
    {
      "epoch": 3.3053389322135573,
      "grad_norm": 0.13112103939056396,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 2204
    },
    {
      "epoch": 3.3068386322735455,
      "grad_norm": 0.13826872408390045,
      "learning_rate": 0.0001,
      "loss": 0.1658,
      "step": 2205
    },
    {
      "epoch": 3.308338332333533,
      "grad_norm": 0.12613040208816528,
      "learning_rate": 0.0001,
      "loss": 0.1655,
      "step": 2206
    },
    {
      "epoch": 3.3098380323935213,
      "grad_norm": 0.23509660363197327,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 2207
    },
    {
      "epoch": 3.3113377324535094,
      "grad_norm": 0.11445680260658264,
      "learning_rate": 0.0001,
      "loss": 0.1675,
      "step": 2208
    },
    {
      "epoch": 3.3128374325134975,
      "grad_norm": 0.11671669781208038,
      "learning_rate": 0.0001,
      "loss": 0.1535,
      "step": 2209
    },
    {
      "epoch": 3.314337132573485,
      "grad_norm": 0.12148738652467728,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 2210
    },
    {
      "epoch": 3.3158368326334733,
      "grad_norm": 0.15199311077594757,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 2211
    },
    {
      "epoch": 3.3173365326934614,
      "grad_norm": 0.15231844782829285,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 2212
    },
    {
      "epoch": 3.3188362327534495,
      "grad_norm": 0.16452649235725403,
      "learning_rate": 0.0001,
      "loss": 0.1727,
      "step": 2213
    },
    {
      "epoch": 3.320335932813437,
      "grad_norm": 0.15848314762115479,
      "learning_rate": 0.0001,
      "loss": 0.1763,
      "step": 2214
    },
    {
      "epoch": 3.3218356328734253,
      "grad_norm": 0.12540203332901,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 2215
    },
    {
      "epoch": 3.3233353329334134,
      "grad_norm": 0.1546117067337036,
      "learning_rate": 0.0001,
      "loss": 0.1639,
      "step": 2216
    },
    {
      "epoch": 3.324835032993401,
      "grad_norm": 0.1520504653453827,
      "learning_rate": 0.0001,
      "loss": 0.1664,
      "step": 2217
    },
    {
      "epoch": 3.3263347330533892,
      "grad_norm": 0.1314963400363922,
      "learning_rate": 0.0001,
      "loss": 0.1742,
      "step": 2218
    },
    {
      "epoch": 3.3278344331133773,
      "grad_norm": 0.13532154262065887,
      "learning_rate": 0.0001,
      "loss": 0.1507,
      "step": 2219
    },
    {
      "epoch": 3.3293341331733655,
      "grad_norm": 0.1442066878080368,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2220
    },
    {
      "epoch": 3.330833833233353,
      "grad_norm": 0.12150005996227264,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 2221
    },
    {
      "epoch": 3.3323335332933413,
      "grad_norm": 0.143655464053154,
      "learning_rate": 0.0001,
      "loss": 0.1764,
      "step": 2222
    },
    {
      "epoch": 3.3338332333533294,
      "grad_norm": 0.137933611869812,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 2223
    },
    {
      "epoch": 3.3353329334133175,
      "grad_norm": 0.14461013674736023,
      "learning_rate": 0.0001,
      "loss": 0.1928,
      "step": 2224
    },
    {
      "epoch": 3.336832633473305,
      "grad_norm": 0.13648413121700287,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 2225
    },
    {
      "epoch": 3.3383323335332933,
      "grad_norm": 0.1492849439382553,
      "learning_rate": 0.0001,
      "loss": 0.1698,
      "step": 2226
    },
    {
      "epoch": 3.3398320335932814,
      "grad_norm": 0.1414223164319992,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 2227
    },
    {
      "epoch": 3.3413317336532695,
      "grad_norm": 0.13179261982440948,
      "learning_rate": 0.0001,
      "loss": 0.1755,
      "step": 2228
    },
    {
      "epoch": 3.342831433713257,
      "grad_norm": 0.14654646813869476,
      "learning_rate": 0.0001,
      "loss": 0.1649,
      "step": 2229
    },
    {
      "epoch": 3.3443311337732453,
      "grad_norm": 0.14839065074920654,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 2230
    },
    {
      "epoch": 3.3458308338332334,
      "grad_norm": 0.13703982532024384,
      "learning_rate": 0.0001,
      "loss": 0.1748,
      "step": 2231
    },
    {
      "epoch": 3.3473305338932215,
      "grad_norm": 0.15196943283081055,
      "learning_rate": 0.0001,
      "loss": 0.1754,
      "step": 2232
    },
    {
      "epoch": 3.3488302339532092,
      "grad_norm": 0.1441251039505005,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 2233
    },
    {
      "epoch": 3.3503299340131973,
      "grad_norm": 0.12820254266262054,
      "learning_rate": 0.0001,
      "loss": 0.1865,
      "step": 2234
    },
    {
      "epoch": 3.3518296340731855,
      "grad_norm": 0.12634016573429108,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 2235
    },
    {
      "epoch": 3.353329334133173,
      "grad_norm": 0.1290116310119629,
      "learning_rate": 0.0001,
      "loss": 0.162,
      "step": 2236
    },
    {
      "epoch": 3.3548290341931613,
      "grad_norm": 0.12910935282707214,
      "learning_rate": 0.0001,
      "loss": 0.1713,
      "step": 2237
    },
    {
      "epoch": 3.3563287342531494,
      "grad_norm": 0.1376749575138092,
      "learning_rate": 0.0001,
      "loss": 0.156,
      "step": 2238
    },
    {
      "epoch": 3.3578284343131375,
      "grad_norm": 0.14578785002231598,
      "learning_rate": 0.0001,
      "loss": 0.1671,
      "step": 2239
    },
    {
      "epoch": 3.3593281343731256,
      "grad_norm": 0.12793603539466858,
      "learning_rate": 0.0001,
      "loss": 0.1649,
      "step": 2240
    },
    {
      "epoch": 3.3608278344331133,
      "grad_norm": 0.17588528990745544,
      "learning_rate": 0.0001,
      "loss": 0.1675,
      "step": 2241
    },
    {
      "epoch": 3.3623275344931014,
      "grad_norm": 0.14990036189556122,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 2242
    },
    {
      "epoch": 3.3638272345530895,
      "grad_norm": 0.162773996591568,
      "learning_rate": 0.0001,
      "loss": 0.1716,
      "step": 2243
    },
    {
      "epoch": 3.365326934613077,
      "grad_norm": 0.13194525241851807,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 2244
    },
    {
      "epoch": 3.3668266346730653,
      "grad_norm": 0.14472848176956177,
      "learning_rate": 0.0001,
      "loss": 0.1775,
      "step": 2245
    },
    {
      "epoch": 3.3683263347330534,
      "grad_norm": 0.1533242166042328,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 2246
    },
    {
      "epoch": 3.3698260347930415,
      "grad_norm": 0.1348949819803238,
      "learning_rate": 0.0001,
      "loss": 0.1669,
      "step": 2247
    },
    {
      "epoch": 3.371325734853029,
      "grad_norm": 0.14397138357162476,
      "learning_rate": 0.0001,
      "loss": 0.1679,
      "step": 2248
    },
    {
      "epoch": 3.3728254349130173,
      "grad_norm": 0.14086589217185974,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 2249
    },
    {
      "epoch": 3.3743251349730055,
      "grad_norm": 0.15212500095367432,
      "learning_rate": 0.0001,
      "loss": 0.1767,
      "step": 2250
    },
    {
      "epoch": 3.3758248350329936,
      "grad_norm": 0.1290522664785385,
      "learning_rate": 0.0001,
      "loss": 0.1654,
      "step": 2251
    },
    {
      "epoch": 3.3773245350929813,
      "grad_norm": 0.15155166387557983,
      "learning_rate": 0.0001,
      "loss": 0.1884,
      "step": 2252
    },
    {
      "epoch": 3.3788242351529694,
      "grad_norm": 0.14330080151557922,
      "learning_rate": 0.0001,
      "loss": 0.166,
      "step": 2253
    },
    {
      "epoch": 3.3803239352129575,
      "grad_norm": 0.13849037885665894,
      "learning_rate": 0.0001,
      "loss": 0.1832,
      "step": 2254
    },
    {
      "epoch": 3.3818236352729456,
      "grad_norm": 0.12531514465808868,
      "learning_rate": 0.0001,
      "loss": 0.1623,
      "step": 2255
    },
    {
      "epoch": 3.3833233353329333,
      "grad_norm": 0.10621460527181625,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 2256
    },
    {
      "epoch": 3.3848230353929214,
      "grad_norm": 0.13398736715316772,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 2257
    },
    {
      "epoch": 3.3863227354529095,
      "grad_norm": 0.13738521933555603,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 2258
    },
    {
      "epoch": 3.3878224355128976,
      "grad_norm": 0.18777145445346832,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 2259
    },
    {
      "epoch": 3.3893221355728853,
      "grad_norm": 0.140740767121315,
      "learning_rate": 0.0001,
      "loss": 0.185,
      "step": 2260
    },
    {
      "epoch": 3.3908218356328734,
      "grad_norm": 0.1295984983444214,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 2261
    },
    {
      "epoch": 3.3923215356928615,
      "grad_norm": 0.13497237861156464,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 2262
    },
    {
      "epoch": 3.393821235752849,
      "grad_norm": 0.14822137355804443,
      "learning_rate": 0.0001,
      "loss": 0.1764,
      "step": 2263
    },
    {
      "epoch": 3.3953209358128373,
      "grad_norm": 0.1370568424463272,
      "learning_rate": 0.0001,
      "loss": 0.1543,
      "step": 2264
    },
    {
      "epoch": 3.3968206358728255,
      "grad_norm": 0.13354773819446564,
      "learning_rate": 0.0001,
      "loss": 0.1567,
      "step": 2265
    },
    {
      "epoch": 3.3983203359328136,
      "grad_norm": 0.1565180867910385,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 2266
    },
    {
      "epoch": 3.3998200359928012,
      "grad_norm": 0.1475326120853424,
      "learning_rate": 0.0001,
      "loss": 0.1685,
      "step": 2267
    },
    {
      "epoch": 3.4013197360527894,
      "grad_norm": 0.15435226261615753,
      "learning_rate": 0.0001,
      "loss": 0.1727,
      "step": 2268
    },
    {
      "epoch": 3.4028194361127775,
      "grad_norm": 0.13670164346694946,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 2269
    },
    {
      "epoch": 3.4043191361727656,
      "grad_norm": 0.1713590919971466,
      "learning_rate": 0.0001,
      "loss": 0.1794,
      "step": 2270
    },
    {
      "epoch": 3.4058188362327533,
      "grad_norm": 0.15296392142772675,
      "learning_rate": 0.0001,
      "loss": 0.152,
      "step": 2271
    },
    {
      "epoch": 3.4073185362927414,
      "grad_norm": 0.14003100991249084,
      "learning_rate": 0.0001,
      "loss": 0.1729,
      "step": 2272
    },
    {
      "epoch": 3.4088182363527295,
      "grad_norm": 0.1653580367565155,
      "learning_rate": 0.0001,
      "loss": 0.1845,
      "step": 2273
    },
    {
      "epoch": 3.4103179364127176,
      "grad_norm": 0.12374958395957947,
      "learning_rate": 0.0001,
      "loss": 0.1688,
      "step": 2274
    },
    {
      "epoch": 3.4118176364727053,
      "grad_norm": 0.12256062030792236,
      "learning_rate": 0.0001,
      "loss": 0.1678,
      "step": 2275
    },
    {
      "epoch": 3.4133173365326934,
      "grad_norm": 0.12946291267871857,
      "learning_rate": 0.0001,
      "loss": 0.1717,
      "step": 2276
    },
    {
      "epoch": 3.4148170365926815,
      "grad_norm": 0.1312938928604126,
      "learning_rate": 0.0001,
      "loss": 0.1806,
      "step": 2277
    },
    {
      "epoch": 3.4163167366526697,
      "grad_norm": 0.15279854834079742,
      "learning_rate": 0.0001,
      "loss": 0.1766,
      "step": 2278
    },
    {
      "epoch": 3.4178164367126573,
      "grad_norm": 0.13458485901355743,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 2279
    },
    {
      "epoch": 3.4193161367726455,
      "grad_norm": 0.13745766878128052,
      "learning_rate": 0.0001,
      "loss": 0.1544,
      "step": 2280
    },
    {
      "epoch": 3.4208158368326336,
      "grad_norm": 0.137886181473732,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 2281
    },
    {
      "epoch": 3.4223155368926212,
      "grad_norm": 0.1222895085811615,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 2282
    },
    {
      "epoch": 3.4238152369526094,
      "grad_norm": 0.13900983333587646,
      "learning_rate": 0.0001,
      "loss": 0.1571,
      "step": 2283
    },
    {
      "epoch": 3.4253149370125975,
      "grad_norm": 0.1426512897014618,
      "learning_rate": 0.0001,
      "loss": 0.178,
      "step": 2284
    },
    {
      "epoch": 3.4268146370725856,
      "grad_norm": 0.14491775631904602,
      "learning_rate": 0.0001,
      "loss": 0.1862,
      "step": 2285
    },
    {
      "epoch": 3.4283143371325737,
      "grad_norm": 0.15271754562854767,
      "learning_rate": 0.0001,
      "loss": 0.1809,
      "step": 2286
    },
    {
      "epoch": 3.4298140371925614,
      "grad_norm": 0.13975994288921356,
      "learning_rate": 0.0001,
      "loss": 0.1618,
      "step": 2287
    },
    {
      "epoch": 3.4313137372525495,
      "grad_norm": 0.11426553875207901,
      "learning_rate": 0.0001,
      "loss": 0.1469,
      "step": 2288
    },
    {
      "epoch": 3.4328134373125376,
      "grad_norm": 0.14938318729400635,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 2289
    },
    {
      "epoch": 3.4343131373725253,
      "grad_norm": 0.1398194581270218,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2290
    },
    {
      "epoch": 3.4358128374325134,
      "grad_norm": 0.13179025053977966,
      "learning_rate": 0.0001,
      "loss": 0.1439,
      "step": 2291
    },
    {
      "epoch": 3.4373125374925015,
      "grad_norm": 0.14316639304161072,
      "learning_rate": 0.0001,
      "loss": 0.1746,
      "step": 2292
    },
    {
      "epoch": 3.4388122375524897,
      "grad_norm": 0.13245199620723724,
      "learning_rate": 0.0001,
      "loss": 0.1646,
      "step": 2293
    },
    {
      "epoch": 3.4403119376124773,
      "grad_norm": 0.1619860678911209,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 2294
    },
    {
      "epoch": 3.4418116376724655,
      "grad_norm": 0.14147840440273285,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 2295
    },
    {
      "epoch": 3.4433113377324536,
      "grad_norm": 0.245446115732193,
      "learning_rate": 0.0001,
      "loss": 0.1823,
      "step": 2296
    },
    {
      "epoch": 3.4448110377924417,
      "grad_norm": 0.17223340272903442,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 2297
    },
    {
      "epoch": 3.4463107378524294,
      "grad_norm": 0.14835157990455627,
      "learning_rate": 0.0001,
      "loss": 0.1754,
      "step": 2298
    },
    {
      "epoch": 3.4478104379124175,
      "grad_norm": 0.12665103375911713,
      "learning_rate": 0.0001,
      "loss": 0.1736,
      "step": 2299
    },
    {
      "epoch": 3.4493101379724056,
      "grad_norm": 0.1326894462108612,
      "learning_rate": 0.0001,
      "loss": 0.1866,
      "step": 2300
    },
    {
      "epoch": 3.4508098380323933,
      "grad_norm": 0.13819831609725952,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 2301
    },
    {
      "epoch": 3.4523095380923814,
      "grad_norm": 0.11585337668657303,
      "learning_rate": 0.0001,
      "loss": 0.156,
      "step": 2302
    },
    {
      "epoch": 3.4538092381523695,
      "grad_norm": 0.13335910439491272,
      "learning_rate": 0.0001,
      "loss": 0.1766,
      "step": 2303
    },
    {
      "epoch": 3.4553089382123576,
      "grad_norm": 0.12892718613147736,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 2304
    },
    {
      "epoch": 3.4568086382723457,
      "grad_norm": 0.1280703842639923,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 2305
    },
    {
      "epoch": 3.4583083383323334,
      "grad_norm": 0.14176584780216217,
      "learning_rate": 0.0001,
      "loss": 0.1869,
      "step": 2306
    },
    {
      "epoch": 3.4598080383923215,
      "grad_norm": 0.1331525444984436,
      "learning_rate": 0.0001,
      "loss": 0.1644,
      "step": 2307
    },
    {
      "epoch": 3.4613077384523097,
      "grad_norm": 0.13725006580352783,
      "learning_rate": 0.0001,
      "loss": 0.1568,
      "step": 2308
    },
    {
      "epoch": 3.4628074385122973,
      "grad_norm": 0.14204706251621246,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 2309
    },
    {
      "epoch": 3.4643071385722854,
      "grad_norm": 0.1517602801322937,
      "learning_rate": 0.0001,
      "loss": 0.1872,
      "step": 2310
    },
    {
      "epoch": 3.4658068386322736,
      "grad_norm": 0.15113911032676697,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 2311
    },
    {
      "epoch": 3.4673065386922617,
      "grad_norm": 0.1522042453289032,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 2312
    },
    {
      "epoch": 3.4688062387522494,
      "grad_norm": 0.20664478838443756,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 2313
    },
    {
      "epoch": 3.4703059388122375,
      "grad_norm": 0.14817890524864197,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 2314
    },
    {
      "epoch": 3.4718056388722256,
      "grad_norm": 0.14718502759933472,
      "learning_rate": 0.0001,
      "loss": 0.1628,
      "step": 2315
    },
    {
      "epoch": 3.4733053389322137,
      "grad_norm": 0.13433583080768585,
      "learning_rate": 0.0001,
      "loss": 0.1709,
      "step": 2316
    },
    {
      "epoch": 3.4748050389922014,
      "grad_norm": 0.128523588180542,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 2317
    },
    {
      "epoch": 3.4763047390521895,
      "grad_norm": 0.13666227459907532,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 2318
    },
    {
      "epoch": 3.4778044391121776,
      "grad_norm": 0.1436040848493576,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 2319
    },
    {
      "epoch": 3.4793041391721657,
      "grad_norm": 0.12167883664369583,
      "learning_rate": 0.0001,
      "loss": 0.1677,
      "step": 2320
    },
    {
      "epoch": 3.4808038392321534,
      "grad_norm": 0.13837097585201263,
      "learning_rate": 0.0001,
      "loss": 0.1676,
      "step": 2321
    },
    {
      "epoch": 3.4823035392921415,
      "grad_norm": 0.13828985393047333,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 2322
    },
    {
      "epoch": 3.4838032393521297,
      "grad_norm": 0.12055289000272751,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 2323
    },
    {
      "epoch": 3.4853029394121178,
      "grad_norm": 0.13649339973926544,
      "learning_rate": 0.0001,
      "loss": 0.1832,
      "step": 2324
    },
    {
      "epoch": 3.4868026394721054,
      "grad_norm": 0.1691681444644928,
      "learning_rate": 0.0001,
      "loss": 0.171,
      "step": 2325
    },
    {
      "epoch": 3.4883023395320936,
      "grad_norm": 0.14243486523628235,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 2326
    },
    {
      "epoch": 3.4898020395920817,
      "grad_norm": 0.1401454657316208,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 2327
    },
    {
      "epoch": 3.4913017396520694,
      "grad_norm": 0.13371558487415314,
      "learning_rate": 0.0001,
      "loss": 0.1819,
      "step": 2328
    },
    {
      "epoch": 3.4928014397120575,
      "grad_norm": 0.14377650618553162,
      "learning_rate": 0.0001,
      "loss": 0.1568,
      "step": 2329
    },
    {
      "epoch": 3.4943011397720456,
      "grad_norm": 0.14315660297870636,
      "learning_rate": 0.0001,
      "loss": 0.183,
      "step": 2330
    },
    {
      "epoch": 3.4958008398320337,
      "grad_norm": 0.1446869820356369,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 2331
    },
    {
      "epoch": 3.497300539892022,
      "grad_norm": 0.16967526078224182,
      "learning_rate": 0.0001,
      "loss": 0.1761,
      "step": 2332
    },
    {
      "epoch": 3.4988002399520095,
      "grad_norm": 0.15245430171489716,
      "learning_rate": 0.0001,
      "loss": 0.1469,
      "step": 2333
    },
    {
      "epoch": 3.5002999400119976,
      "grad_norm": 0.1249530240893364,
      "learning_rate": 0.0001,
      "loss": 0.1664,
      "step": 2334
    },
    {
      "epoch": 3.5017996400719857,
      "grad_norm": 0.14292600750923157,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 2335
    },
    {
      "epoch": 3.5032993401319734,
      "grad_norm": 0.14285887777805328,
      "learning_rate": 0.0001,
      "loss": 0.1658,
      "step": 2336
    },
    {
      "epoch": 3.5047990401919615,
      "grad_norm": 0.1282789409160614,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 2337
    },
    {
      "epoch": 3.5062987402519497,
      "grad_norm": 0.1294521540403366,
      "learning_rate": 0.0001,
      "loss": 0.1685,
      "step": 2338
    },
    {
      "epoch": 3.5077984403119378,
      "grad_norm": 0.14933285117149353,
      "learning_rate": 0.0001,
      "loss": 0.1789,
      "step": 2339
    },
    {
      "epoch": 3.509298140371926,
      "grad_norm": 0.3728838264942169,
      "learning_rate": 0.0001,
      "loss": 0.171,
      "step": 2340
    },
    {
      "epoch": 3.5107978404319136,
      "grad_norm": 0.17221537232398987,
      "learning_rate": 0.0001,
      "loss": 0.1691,
      "step": 2341
    },
    {
      "epoch": 3.5122975404919017,
      "grad_norm": 0.1402243822813034,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 2342
    },
    {
      "epoch": 3.51379724055189,
      "grad_norm": 0.1385844647884369,
      "learning_rate": 0.0001,
      "loss": 0.1807,
      "step": 2343
    },
    {
      "epoch": 3.5152969406118775,
      "grad_norm": 0.1403229981660843,
      "learning_rate": 0.0001,
      "loss": 0.1689,
      "step": 2344
    },
    {
      "epoch": 3.5167966406718656,
      "grad_norm": 0.12719888985157013,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2345
    },
    {
      "epoch": 3.5182963407318537,
      "grad_norm": 0.13556595146656036,
      "learning_rate": 0.0001,
      "loss": 0.1597,
      "step": 2346
    },
    {
      "epoch": 3.5197960407918414,
      "grad_norm": 0.13051718473434448,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2347
    },
    {
      "epoch": 3.5212957408518295,
      "grad_norm": 0.12465213984251022,
      "learning_rate": 0.0001,
      "loss": 0.1619,
      "step": 2348
    },
    {
      "epoch": 3.5227954409118176,
      "grad_norm": 0.12244119495153427,
      "learning_rate": 0.0001,
      "loss": 0.151,
      "step": 2349
    },
    {
      "epoch": 3.5242951409718057,
      "grad_norm": 0.17087000608444214,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 2350
    },
    {
      "epoch": 3.525794841031794,
      "grad_norm": 0.1504325419664383,
      "learning_rate": 0.0001,
      "loss": 0.1774,
      "step": 2351
    },
    {
      "epoch": 3.5272945410917815,
      "grad_norm": 0.1675640493631363,
      "learning_rate": 0.0001,
      "loss": 0.1642,
      "step": 2352
    },
    {
      "epoch": 3.5287942411517697,
      "grad_norm": 0.12871679663658142,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 2353
    },
    {
      "epoch": 3.5302939412117578,
      "grad_norm": 0.12149202823638916,
      "learning_rate": 0.0001,
      "loss": 0.1756,
      "step": 2354
    },
    {
      "epoch": 3.5317936412717454,
      "grad_norm": 0.15769025683403015,
      "learning_rate": 0.0001,
      "loss": 0.1649,
      "step": 2355
    },
    {
      "epoch": 3.5332933413317336,
      "grad_norm": 0.13314363360404968,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 2356
    },
    {
      "epoch": 3.5347930413917217,
      "grad_norm": 0.15339411795139313,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 2357
    },
    {
      "epoch": 3.53629274145171,
      "grad_norm": 0.13905711472034454,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 2358
    },
    {
      "epoch": 3.537792441511698,
      "grad_norm": 0.13369624316692352,
      "learning_rate": 0.0001,
      "loss": 0.1729,
      "step": 2359
    },
    {
      "epoch": 3.5392921415716856,
      "grad_norm": 0.13101007044315338,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2360
    },
    {
      "epoch": 3.5407918416316737,
      "grad_norm": 0.14308588206768036,
      "learning_rate": 0.0001,
      "loss": 0.1674,
      "step": 2361
    },
    {
      "epoch": 3.542291541691662,
      "grad_norm": 0.14724385738372803,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 2362
    },
    {
      "epoch": 3.5437912417516495,
      "grad_norm": 0.14623261988162994,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 2363
    },
    {
      "epoch": 3.5452909418116376,
      "grad_norm": 0.130732461810112,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 2364
    },
    {
      "epoch": 3.5467906418716257,
      "grad_norm": 0.14220163226127625,
      "learning_rate": 0.0001,
      "loss": 0.1747,
      "step": 2365
    },
    {
      "epoch": 3.5482903419316134,
      "grad_norm": 0.14778611063957214,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 2366
    },
    {
      "epoch": 3.5497900419916015,
      "grad_norm": 0.13314476609230042,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 2367
    },
    {
      "epoch": 3.5512897420515896,
      "grad_norm": 0.13400053977966309,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 2368
    },
    {
      "epoch": 3.5527894421115778,
      "grad_norm": 0.13693101704120636,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 2369
    },
    {
      "epoch": 3.554289142171566,
      "grad_norm": 0.1328016072511673,
      "learning_rate": 0.0001,
      "loss": 0.1734,
      "step": 2370
    },
    {
      "epoch": 3.5557888422315536,
      "grad_norm": 0.13761502504348755,
      "learning_rate": 0.0001,
      "loss": 0.162,
      "step": 2371
    },
    {
      "epoch": 3.5572885422915417,
      "grad_norm": 0.12724122405052185,
      "learning_rate": 0.0001,
      "loss": 0.1914,
      "step": 2372
    },
    {
      "epoch": 3.55878824235153,
      "grad_norm": 0.13069504499435425,
      "learning_rate": 0.0001,
      "loss": 0.1798,
      "step": 2373
    },
    {
      "epoch": 3.5602879424115175,
      "grad_norm": 0.13013380765914917,
      "learning_rate": 0.0001,
      "loss": 0.1691,
      "step": 2374
    },
    {
      "epoch": 3.5617876424715056,
      "grad_norm": 0.14601463079452515,
      "learning_rate": 0.0001,
      "loss": 0.1725,
      "step": 2375
    },
    {
      "epoch": 3.5632873425314937,
      "grad_norm": 0.14215417206287384,
      "learning_rate": 0.0001,
      "loss": 0.1676,
      "step": 2376
    },
    {
      "epoch": 3.564787042591482,
      "grad_norm": 0.15886470675468445,
      "learning_rate": 0.0001,
      "loss": 0.1814,
      "step": 2377
    },
    {
      "epoch": 3.56628674265147,
      "grad_norm": 0.12263389676809311,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 2378
    },
    {
      "epoch": 3.5677864427114576,
      "grad_norm": 0.15710623562335968,
      "learning_rate": 0.0001,
      "loss": 0.166,
      "step": 2379
    },
    {
      "epoch": 3.5692861427714457,
      "grad_norm": 0.13648241758346558,
      "learning_rate": 0.0001,
      "loss": 0.1635,
      "step": 2380
    },
    {
      "epoch": 3.570785842831434,
      "grad_norm": 0.1477738320827484,
      "learning_rate": 0.0001,
      "loss": 0.1647,
      "step": 2381
    },
    {
      "epoch": 3.5722855428914215,
      "grad_norm": 0.16481122374534607,
      "learning_rate": 0.0001,
      "loss": 0.1678,
      "step": 2382
    },
    {
      "epoch": 3.5737852429514096,
      "grad_norm": 0.14533954858779907,
      "learning_rate": 0.0001,
      "loss": 0.1784,
      "step": 2383
    },
    {
      "epoch": 3.5752849430113978,
      "grad_norm": 0.12959793210029602,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 2384
    },
    {
      "epoch": 3.576784643071386,
      "grad_norm": 0.1623244285583496,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 2385
    },
    {
      "epoch": 3.578284343131374,
      "grad_norm": 0.14362439513206482,
      "learning_rate": 0.0001,
      "loss": 0.1767,
      "step": 2386
    },
    {
      "epoch": 3.5797840431913617,
      "grad_norm": 0.13570581376552582,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 2387
    },
    {
      "epoch": 3.58128374325135,
      "grad_norm": 0.12878893315792084,
      "learning_rate": 0.0001,
      "loss": 0.1637,
      "step": 2388
    },
    {
      "epoch": 3.582783443311338,
      "grad_norm": 0.12574690580368042,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 2389
    },
    {
      "epoch": 3.5842831433713256,
      "grad_norm": 0.11691132187843323,
      "learning_rate": 0.0001,
      "loss": 0.166,
      "step": 2390
    },
    {
      "epoch": 3.5857828434313137,
      "grad_norm": 0.14114639163017273,
      "learning_rate": 0.0001,
      "loss": 0.1864,
      "step": 2391
    },
    {
      "epoch": 3.587282543491302,
      "grad_norm": 0.1293635070323944,
      "learning_rate": 0.0001,
      "loss": 0.1748,
      "step": 2392
    },
    {
      "epoch": 3.5887822435512895,
      "grad_norm": 0.16544494032859802,
      "learning_rate": 0.0001,
      "loss": 0.1552,
      "step": 2393
    },
    {
      "epoch": 3.5902819436112776,
      "grad_norm": 0.13809140026569366,
      "learning_rate": 0.0001,
      "loss": 0.1789,
      "step": 2394
    },
    {
      "epoch": 3.5917816436712657,
      "grad_norm": 0.1508425921201706,
      "learning_rate": 0.0001,
      "loss": 0.1904,
      "step": 2395
    },
    {
      "epoch": 3.593281343731254,
      "grad_norm": 0.13163164258003235,
      "learning_rate": 0.0001,
      "loss": 0.1662,
      "step": 2396
    },
    {
      "epoch": 3.594781043791242,
      "grad_norm": 0.155744731426239,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 2397
    },
    {
      "epoch": 3.5962807438512296,
      "grad_norm": 0.1489197313785553,
      "learning_rate": 0.0001,
      "loss": 0.1792,
      "step": 2398
    },
    {
      "epoch": 3.5977804439112178,
      "grad_norm": 0.1326395869255066,
      "learning_rate": 0.0001,
      "loss": 0.1643,
      "step": 2399
    },
    {
      "epoch": 3.599280143971206,
      "grad_norm": 0.13364288210868835,
      "learning_rate": 0.0001,
      "loss": 0.172,
      "step": 2400
    },
    {
      "epoch": 3.6007798440311936,
      "grad_norm": 0.14911143481731415,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 2401
    },
    {
      "epoch": 3.6022795440911817,
      "grad_norm": 0.13912199437618256,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 2402
    },
    {
      "epoch": 3.60377924415117,
      "grad_norm": 0.15216533839702606,
      "learning_rate": 0.0001,
      "loss": 0.1453,
      "step": 2403
    },
    {
      "epoch": 3.605278944211158,
      "grad_norm": 0.15029382705688477,
      "learning_rate": 0.0001,
      "loss": 0.1839,
      "step": 2404
    },
    {
      "epoch": 3.606778644271146,
      "grad_norm": 0.13023842871189117,
      "learning_rate": 0.0001,
      "loss": 0.1682,
      "step": 2405
    },
    {
      "epoch": 3.6082783443311337,
      "grad_norm": 0.12621091306209564,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2406
    },
    {
      "epoch": 3.609778044391122,
      "grad_norm": 0.13014674186706543,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 2407
    },
    {
      "epoch": 3.61127774445111,
      "grad_norm": 0.12385717034339905,
      "learning_rate": 0.0001,
      "loss": 0.1669,
      "step": 2408
    },
    {
      "epoch": 3.6127774445110976,
      "grad_norm": 0.13599269092082977,
      "learning_rate": 0.0001,
      "loss": 0.1677,
      "step": 2409
    },
    {
      "epoch": 3.6142771445710857,
      "grad_norm": 0.14334282279014587,
      "learning_rate": 0.0001,
      "loss": 0.1744,
      "step": 2410
    },
    {
      "epoch": 3.615776844631074,
      "grad_norm": 0.24000445008277893,
      "learning_rate": 0.0001,
      "loss": 0.1682,
      "step": 2411
    },
    {
      "epoch": 3.6172765446910615,
      "grad_norm": 0.29238489270210266,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2412
    },
    {
      "epoch": 3.6187762447510496,
      "grad_norm": 0.1510222852230072,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 2413
    },
    {
      "epoch": 3.6202759448110378,
      "grad_norm": 0.15971137583255768,
      "learning_rate": 0.0001,
      "loss": 0.1689,
      "step": 2414
    },
    {
      "epoch": 3.621775644871026,
      "grad_norm": 0.12099794298410416,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 2415
    },
    {
      "epoch": 3.623275344931014,
      "grad_norm": 0.15262062847614288,
      "learning_rate": 0.0001,
      "loss": 0.171,
      "step": 2416
    },
    {
      "epoch": 3.6247750449910017,
      "grad_norm": 0.1417446732521057,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 2417
    },
    {
      "epoch": 3.62627474505099,
      "grad_norm": 0.12315089255571365,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 2418
    },
    {
      "epoch": 3.627774445110978,
      "grad_norm": 0.1097295954823494,
      "learning_rate": 0.0001,
      "loss": 0.1501,
      "step": 2419
    },
    {
      "epoch": 3.6292741451709656,
      "grad_norm": 0.13391783833503723,
      "learning_rate": 0.0001,
      "loss": 0.1724,
      "step": 2420
    },
    {
      "epoch": 3.6307738452309537,
      "grad_norm": 0.14823508262634277,
      "learning_rate": 0.0001,
      "loss": 0.1785,
      "step": 2421
    },
    {
      "epoch": 3.632273545290942,
      "grad_norm": 0.12953032553195953,
      "learning_rate": 0.0001,
      "loss": 0.157,
      "step": 2422
    },
    {
      "epoch": 3.63377324535093,
      "grad_norm": 0.14494071900844574,
      "learning_rate": 0.0001,
      "loss": 0.182,
      "step": 2423
    },
    {
      "epoch": 3.635272945410918,
      "grad_norm": 0.15069730579853058,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2424
    },
    {
      "epoch": 3.6367726454709057,
      "grad_norm": 0.1578976958990097,
      "learning_rate": 0.0001,
      "loss": 0.165,
      "step": 2425
    },
    {
      "epoch": 3.638272345530894,
      "grad_norm": 0.12614959478378296,
      "learning_rate": 0.0001,
      "loss": 0.172,
      "step": 2426
    },
    {
      "epoch": 3.639772045590882,
      "grad_norm": 0.13677522540092468,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 2427
    },
    {
      "epoch": 3.6412717456508696,
      "grad_norm": 0.14280998706817627,
      "learning_rate": 0.0001,
      "loss": 0.1537,
      "step": 2428
    },
    {
      "epoch": 3.6427714457108578,
      "grad_norm": 0.12187153100967407,
      "learning_rate": 0.0001,
      "loss": 0.1478,
      "step": 2429
    },
    {
      "epoch": 3.644271145770846,
      "grad_norm": 0.13800550997257233,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2430
    },
    {
      "epoch": 3.645770845830834,
      "grad_norm": 0.1534145027399063,
      "learning_rate": 0.0001,
      "loss": 0.1663,
      "step": 2431
    },
    {
      "epoch": 3.6472705458908217,
      "grad_norm": 0.1363781839609146,
      "learning_rate": 0.0001,
      "loss": 0.1704,
      "step": 2432
    },
    {
      "epoch": 3.64877024595081,
      "grad_norm": 0.13017144799232483,
      "learning_rate": 0.0001,
      "loss": 0.1797,
      "step": 2433
    },
    {
      "epoch": 3.650269946010798,
      "grad_norm": 0.12328781932592392,
      "learning_rate": 0.0001,
      "loss": 0.1797,
      "step": 2434
    },
    {
      "epoch": 3.651769646070786,
      "grad_norm": 0.1340920478105545,
      "learning_rate": 0.0001,
      "loss": 0.1765,
      "step": 2435
    },
    {
      "epoch": 3.6532693461307737,
      "grad_norm": 0.14217932522296906,
      "learning_rate": 0.0001,
      "loss": 0.1769,
      "step": 2436
    },
    {
      "epoch": 3.654769046190762,
      "grad_norm": 0.13973306119441986,
      "learning_rate": 0.0001,
      "loss": 0.1768,
      "step": 2437
    },
    {
      "epoch": 3.65626874625075,
      "grad_norm": 0.21969954669475555,
      "learning_rate": 0.0001,
      "loss": 0.1787,
      "step": 2438
    },
    {
      "epoch": 3.6577684463107376,
      "grad_norm": 0.15308129787445068,
      "learning_rate": 0.0001,
      "loss": 0.1914,
      "step": 2439
    },
    {
      "epoch": 3.6592681463707257,
      "grad_norm": 0.1403850018978119,
      "learning_rate": 0.0001,
      "loss": 0.1784,
      "step": 2440
    },
    {
      "epoch": 3.660767846430714,
      "grad_norm": 0.12021183967590332,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 2441
    },
    {
      "epoch": 3.662267546490702,
      "grad_norm": 0.15278005599975586,
      "learning_rate": 0.0001,
      "loss": 0.1676,
      "step": 2442
    },
    {
      "epoch": 3.66376724655069,
      "grad_norm": 0.11910256743431091,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 2443
    },
    {
      "epoch": 3.6652669466106778,
      "grad_norm": 0.1391337513923645,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 2444
    },
    {
      "epoch": 3.666766646670666,
      "grad_norm": 0.12748023867607117,
      "learning_rate": 0.0001,
      "loss": 0.1718,
      "step": 2445
    },
    {
      "epoch": 3.668266346730654,
      "grad_norm": 0.12581810355186462,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 2446
    },
    {
      "epoch": 3.6697660467906417,
      "grad_norm": 0.12263129651546478,
      "learning_rate": 0.0001,
      "loss": 0.1549,
      "step": 2447
    },
    {
      "epoch": 3.67126574685063,
      "grad_norm": 0.1383671760559082,
      "learning_rate": 0.0001,
      "loss": 0.1686,
      "step": 2448
    },
    {
      "epoch": 3.672765446910618,
      "grad_norm": 0.1513119637966156,
      "learning_rate": 0.0001,
      "loss": 0.164,
      "step": 2449
    },
    {
      "epoch": 3.674265146970606,
      "grad_norm": 0.1376236230134964,
      "learning_rate": 0.0001,
      "loss": 0.1543,
      "step": 2450
    },
    {
      "epoch": 3.675764847030594,
      "grad_norm": 0.12921598553657532,
      "learning_rate": 0.0001,
      "loss": 0.1759,
      "step": 2451
    },
    {
      "epoch": 3.677264547090582,
      "grad_norm": 0.1384451985359192,
      "learning_rate": 0.0001,
      "loss": 0.1648,
      "step": 2452
    },
    {
      "epoch": 3.67876424715057,
      "grad_norm": 0.1285591572523117,
      "learning_rate": 0.0001,
      "loss": 0.1596,
      "step": 2453
    },
    {
      "epoch": 3.680263947210558,
      "grad_norm": 0.14469803869724274,
      "learning_rate": 0.0001,
      "loss": 0.15,
      "step": 2454
    },
    {
      "epoch": 3.6817636472705457,
      "grad_norm": 0.16186179220676422,
      "learning_rate": 0.0001,
      "loss": 0.185,
      "step": 2455
    },
    {
      "epoch": 3.683263347330534,
      "grad_norm": 0.1279962956905365,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 2456
    },
    {
      "epoch": 3.684763047390522,
      "grad_norm": 0.1428493857383728,
      "learning_rate": 0.0001,
      "loss": 0.1845,
      "step": 2457
    },
    {
      "epoch": 3.6862627474505096,
      "grad_norm": 0.12215525656938553,
      "learning_rate": 0.0001,
      "loss": 0.1492,
      "step": 2458
    },
    {
      "epoch": 3.6877624475104978,
      "grad_norm": 0.14751586318016052,
      "learning_rate": 0.0001,
      "loss": 0.1674,
      "step": 2459
    },
    {
      "epoch": 3.689262147570486,
      "grad_norm": 0.17151154577732086,
      "learning_rate": 0.0001,
      "loss": 0.1614,
      "step": 2460
    },
    {
      "epoch": 3.690761847630474,
      "grad_norm": 0.15102089941501617,
      "learning_rate": 0.0001,
      "loss": 0.1732,
      "step": 2461
    },
    {
      "epoch": 3.692261547690462,
      "grad_norm": 0.1545032262802124,
      "learning_rate": 0.0001,
      "loss": 0.1495,
      "step": 2462
    },
    {
      "epoch": 3.69376124775045,
      "grad_norm": 0.13780248165130615,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 2463
    },
    {
      "epoch": 3.695260947810438,
      "grad_norm": 0.1271531730890274,
      "learning_rate": 0.0001,
      "loss": 0.1478,
      "step": 2464
    },
    {
      "epoch": 3.696760647870426,
      "grad_norm": 0.1407555192708969,
      "learning_rate": 0.0001,
      "loss": 0.1759,
      "step": 2465
    },
    {
      "epoch": 3.6982603479304137,
      "grad_norm": 0.11837904900312424,
      "learning_rate": 0.0001,
      "loss": 0.1582,
      "step": 2466
    },
    {
      "epoch": 3.699760047990402,
      "grad_norm": 0.14357168972492218,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 2467
    },
    {
      "epoch": 3.70125974805039,
      "grad_norm": 0.12943734228610992,
      "learning_rate": 0.0001,
      "loss": 0.1643,
      "step": 2468
    },
    {
      "epoch": 3.702759448110378,
      "grad_norm": 0.13621510565280914,
      "learning_rate": 0.0001,
      "loss": 0.168,
      "step": 2469
    },
    {
      "epoch": 3.704259148170366,
      "grad_norm": 0.12704585492610931,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 2470
    },
    {
      "epoch": 3.705758848230354,
      "grad_norm": 0.13475549221038818,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 2471
    },
    {
      "epoch": 3.707258548290342,
      "grad_norm": 0.12738601863384247,
      "learning_rate": 0.0001,
      "loss": 0.1487,
      "step": 2472
    },
    {
      "epoch": 3.70875824835033,
      "grad_norm": 0.1435411274433136,
      "learning_rate": 0.0001,
      "loss": 0.1695,
      "step": 2473
    },
    {
      "epoch": 3.7102579484103178,
      "grad_norm": 0.13376092910766602,
      "learning_rate": 0.0001,
      "loss": 0.1689,
      "step": 2474
    },
    {
      "epoch": 3.711757648470306,
      "grad_norm": 0.1443512737751007,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 2475
    },
    {
      "epoch": 3.713257348530294,
      "grad_norm": 0.13009299337863922,
      "learning_rate": 0.0001,
      "loss": 0.1729,
      "step": 2476
    },
    {
      "epoch": 3.714757048590282,
      "grad_norm": 0.16151493787765503,
      "learning_rate": 0.0001,
      "loss": 0.1836,
      "step": 2477
    },
    {
      "epoch": 3.71625674865027,
      "grad_norm": 0.15120255947113037,
      "learning_rate": 0.0001,
      "loss": 0.1843,
      "step": 2478
    },
    {
      "epoch": 3.717756448710258,
      "grad_norm": 0.19445505738258362,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 2479
    },
    {
      "epoch": 3.719256148770246,
      "grad_norm": 0.14911584556102753,
      "learning_rate": 0.0001,
      "loss": 0.1763,
      "step": 2480
    },
    {
      "epoch": 3.720755848830234,
      "grad_norm": 0.14267410337924957,
      "learning_rate": 0.0001,
      "loss": 0.1812,
      "step": 2481
    },
    {
      "epoch": 3.722255548890222,
      "grad_norm": 0.12492202967405319,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 2482
    },
    {
      "epoch": 3.72375524895021,
      "grad_norm": 0.12829747796058655,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 2483
    },
    {
      "epoch": 3.725254949010198,
      "grad_norm": 0.12231544405221939,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 2484
    },
    {
      "epoch": 3.7267546490701857,
      "grad_norm": 0.148403599858284,
      "learning_rate": 0.0001,
      "loss": 0.1787,
      "step": 2485
    },
    {
      "epoch": 3.728254349130174,
      "grad_norm": 0.13048326969146729,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 2486
    },
    {
      "epoch": 3.729754049190162,
      "grad_norm": 0.12058819830417633,
      "learning_rate": 0.0001,
      "loss": 0.1481,
      "step": 2487
    },
    {
      "epoch": 3.73125374925015,
      "grad_norm": 0.13269631564617157,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 2488
    },
    {
      "epoch": 3.732753449310138,
      "grad_norm": 0.15362443029880524,
      "learning_rate": 0.0001,
      "loss": 0.1779,
      "step": 2489
    },
    {
      "epoch": 3.734253149370126,
      "grad_norm": 0.12992627918720245,
      "learning_rate": 0.0001,
      "loss": 0.1624,
      "step": 2490
    },
    {
      "epoch": 3.735752849430114,
      "grad_norm": 0.12408529967069626,
      "learning_rate": 0.0001,
      "loss": 0.1538,
      "step": 2491
    },
    {
      "epoch": 3.737252549490102,
      "grad_norm": 0.1381649225950241,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 2492
    },
    {
      "epoch": 3.73875224955009,
      "grad_norm": 0.13895860314369202,
      "learning_rate": 0.0001,
      "loss": 0.1698,
      "step": 2493
    },
    {
      "epoch": 3.740251949610078,
      "grad_norm": 0.13751116394996643,
      "learning_rate": 0.0001,
      "loss": 0.1494,
      "step": 2494
    },
    {
      "epoch": 3.741751649670066,
      "grad_norm": 0.143961563706398,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 2495
    },
    {
      "epoch": 3.743251349730054,
      "grad_norm": 0.13338395953178406,
      "learning_rate": 0.0001,
      "loss": 0.1666,
      "step": 2496
    },
    {
      "epoch": 3.7447510497900423,
      "grad_norm": 0.1464982032775879,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 2497
    },
    {
      "epoch": 3.74625074985003,
      "grad_norm": 0.15332931280136108,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 2498
    },
    {
      "epoch": 3.747750449910018,
      "grad_norm": 0.15856903791427612,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 2499
    },
    {
      "epoch": 3.749250149970006,
      "grad_norm": 0.12209013849496841,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 2500
    },
    {
      "epoch": 3.749250149970006,
      "eval_loss": 0.19228285551071167,
      "eval_runtime": 510.2312,
      "eval_samples_per_second": 4.9,
      "eval_steps_per_second": 1.225,
      "step": 2500
    },
    {
      "epoch": 3.750749850029994,
      "grad_norm": 0.16086263954639435,
      "learning_rate": 0.0001,
      "loss": 0.1656,
      "step": 2501
    },
    {
      "epoch": 3.752249550089982,
      "grad_norm": 0.16903787851333618,
      "learning_rate": 0.0001,
      "loss": 0.1833,
      "step": 2502
    },
    {
      "epoch": 3.75374925014997,
      "grad_norm": 0.14824654161930084,
      "learning_rate": 0.0001,
      "loss": 0.15,
      "step": 2503
    },
    {
      "epoch": 3.7552489502099577,
      "grad_norm": 0.14718440175056458,
      "learning_rate": 0.0001,
      "loss": 0.173,
      "step": 2504
    },
    {
      "epoch": 3.756748650269946,
      "grad_norm": 0.12790009379386902,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 2505
    },
    {
      "epoch": 3.758248350329934,
      "grad_norm": 0.3957146108150482,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 2506
    },
    {
      "epoch": 3.759748050389922,
      "grad_norm": 0.14179854094982147,
      "learning_rate": 0.0001,
      "loss": 0.1575,
      "step": 2507
    },
    {
      "epoch": 3.76124775044991,
      "grad_norm": 0.13300222158432007,
      "learning_rate": 0.0001,
      "loss": 0.179,
      "step": 2508
    },
    {
      "epoch": 3.762747450509898,
      "grad_norm": 0.15468226373195648,
      "learning_rate": 0.0001,
      "loss": 0.1753,
      "step": 2509
    },
    {
      "epoch": 3.764247150569886,
      "grad_norm": 0.143351748585701,
      "learning_rate": 0.0001,
      "loss": 0.1665,
      "step": 2510
    },
    {
      "epoch": 3.765746850629874,
      "grad_norm": 0.14477431774139404,
      "learning_rate": 0.0001,
      "loss": 0.1728,
      "step": 2511
    },
    {
      "epoch": 3.767246550689862,
      "grad_norm": 0.14465759694576263,
      "learning_rate": 0.0001,
      "loss": 0.1788,
      "step": 2512
    },
    {
      "epoch": 3.76874625074985,
      "grad_norm": 0.19906075298786163,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 2513
    },
    {
      "epoch": 3.770245950809838,
      "grad_norm": 0.12394207715988159,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 2514
    },
    {
      "epoch": 3.771745650869826,
      "grad_norm": 0.14500552415847778,
      "learning_rate": 0.0001,
      "loss": 0.1834,
      "step": 2515
    },
    {
      "epoch": 3.7732453509298143,
      "grad_norm": 0.13199147582054138,
      "learning_rate": 0.0001,
      "loss": 0.1753,
      "step": 2516
    },
    {
      "epoch": 3.774745050989802,
      "grad_norm": 0.14300762116909027,
      "learning_rate": 0.0001,
      "loss": 0.1536,
      "step": 2517
    },
    {
      "epoch": 3.77624475104979,
      "grad_norm": 0.1506044715642929,
      "learning_rate": 0.0001,
      "loss": 0.1811,
      "step": 2518
    },
    {
      "epoch": 3.777744451109778,
      "grad_norm": 0.12471358478069305,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 2519
    },
    {
      "epoch": 3.779244151169766,
      "grad_norm": 0.1210378110408783,
      "learning_rate": 0.0001,
      "loss": 0.1527,
      "step": 2520
    },
    {
      "epoch": 3.780743851229754,
      "grad_norm": 0.14052130281925201,
      "learning_rate": 0.0001,
      "loss": 0.196,
      "step": 2521
    },
    {
      "epoch": 3.782243551289742,
      "grad_norm": 0.11544173955917358,
      "learning_rate": 0.0001,
      "loss": 0.1671,
      "step": 2522
    },
    {
      "epoch": 3.78374325134973,
      "grad_norm": 0.1268710494041443,
      "learning_rate": 0.0001,
      "loss": 0.1491,
      "step": 2523
    },
    {
      "epoch": 3.785242951409718,
      "grad_norm": 0.14032424986362457,
      "learning_rate": 0.0001,
      "loss": 0.1772,
      "step": 2524
    },
    {
      "epoch": 3.786742651469706,
      "grad_norm": 0.15438181161880493,
      "learning_rate": 0.0001,
      "loss": 0.1694,
      "step": 2525
    },
    {
      "epoch": 3.788242351529694,
      "grad_norm": 0.14846542477607727,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2526
    },
    {
      "epoch": 3.7897420515896822,
      "grad_norm": 0.1220933273434639,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 2527
    },
    {
      "epoch": 3.79124175164967,
      "grad_norm": 0.13840755820274353,
      "learning_rate": 0.0001,
      "loss": 0.1669,
      "step": 2528
    },
    {
      "epoch": 3.792741451709658,
      "grad_norm": 0.18641673028469086,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 2529
    },
    {
      "epoch": 3.794241151769646,
      "grad_norm": 0.15841858088970184,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 2530
    },
    {
      "epoch": 3.795740851829634,
      "grad_norm": 0.11767327785491943,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 2531
    },
    {
      "epoch": 3.797240551889622,
      "grad_norm": 0.1278347373008728,
      "learning_rate": 0.0001,
      "loss": 0.181,
      "step": 2532
    },
    {
      "epoch": 3.79874025194961,
      "grad_norm": 0.15920475125312805,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 2533
    },
    {
      "epoch": 3.800239952009598,
      "grad_norm": 0.14884628355503082,
      "learning_rate": 0.0001,
      "loss": 0.156,
      "step": 2534
    },
    {
      "epoch": 3.8017396520695863,
      "grad_norm": 0.12489862740039825,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 2535
    },
    {
      "epoch": 3.803239352129574,
      "grad_norm": 0.12826450169086456,
      "learning_rate": 0.0001,
      "loss": 0.1648,
      "step": 2536
    },
    {
      "epoch": 3.804739052189562,
      "grad_norm": 0.14309781789779663,
      "learning_rate": 0.0001,
      "loss": 0.166,
      "step": 2537
    },
    {
      "epoch": 3.80623875224955,
      "grad_norm": 0.15043526887893677,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 2538
    },
    {
      "epoch": 3.807738452309538,
      "grad_norm": 0.13603076338768005,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 2539
    },
    {
      "epoch": 3.809238152369526,
      "grad_norm": 0.1294177621603012,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 2540
    },
    {
      "epoch": 3.810737852429514,
      "grad_norm": 0.14563241600990295,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 2541
    },
    {
      "epoch": 3.8122375524895022,
      "grad_norm": 0.13908831775188446,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 2542
    },
    {
      "epoch": 3.8137372525494904,
      "grad_norm": 0.1365554928779602,
      "learning_rate": 0.0001,
      "loss": 0.1849,
      "step": 2543
    },
    {
      "epoch": 3.815236952609478,
      "grad_norm": 0.17232316732406616,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 2544
    },
    {
      "epoch": 3.816736652669466,
      "grad_norm": 0.1388024538755417,
      "learning_rate": 0.0001,
      "loss": 0.1726,
      "step": 2545
    },
    {
      "epoch": 3.8182363527294543,
      "grad_norm": 0.1337513029575348,
      "learning_rate": 0.0001,
      "loss": 0.1798,
      "step": 2546
    },
    {
      "epoch": 3.819736052789442,
      "grad_norm": 0.1153627410531044,
      "learning_rate": 0.0001,
      "loss": 0.1654,
      "step": 2547
    },
    {
      "epoch": 3.82123575284943,
      "grad_norm": 0.122305728495121,
      "learning_rate": 0.0001,
      "loss": 0.1795,
      "step": 2548
    },
    {
      "epoch": 3.822735452909418,
      "grad_norm": 0.11724861711263657,
      "learning_rate": 0.0001,
      "loss": 0.1596,
      "step": 2549
    },
    {
      "epoch": 3.824235152969406,
      "grad_norm": 0.13044123351573944,
      "learning_rate": 0.0001,
      "loss": 0.1637,
      "step": 2550
    },
    {
      "epoch": 3.825734853029394,
      "grad_norm": 0.12767072021961212,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 2551
    },
    {
      "epoch": 3.827234553089382,
      "grad_norm": 0.13599534332752228,
      "learning_rate": 0.0001,
      "loss": 0.1822,
      "step": 2552
    },
    {
      "epoch": 3.82873425314937,
      "grad_norm": 0.14520412683486938,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 2553
    },
    {
      "epoch": 3.8302339532093583,
      "grad_norm": 0.2332700788974762,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 2554
    },
    {
      "epoch": 3.831733653269346,
      "grad_norm": 0.13320292532444,
      "learning_rate": 0.0001,
      "loss": 0.1727,
      "step": 2555
    },
    {
      "epoch": 3.833233353329334,
      "grad_norm": 0.14105618000030518,
      "learning_rate": 0.0001,
      "loss": 0.17,
      "step": 2556
    },
    {
      "epoch": 3.8347330533893222,
      "grad_norm": 0.13612450659275055,
      "learning_rate": 0.0001,
      "loss": 0.1776,
      "step": 2557
    },
    {
      "epoch": 3.83623275344931,
      "grad_norm": 0.16986122727394104,
      "learning_rate": 0.0001,
      "loss": 0.1884,
      "step": 2558
    },
    {
      "epoch": 3.837732453509298,
      "grad_norm": 0.14412668347358704,
      "learning_rate": 0.0001,
      "loss": 0.1642,
      "step": 2559
    },
    {
      "epoch": 3.839232153569286,
      "grad_norm": 0.14570902287960052,
      "learning_rate": 0.0001,
      "loss": 0.1594,
      "step": 2560
    },
    {
      "epoch": 3.8407318536292743,
      "grad_norm": 0.3450688421726227,
      "learning_rate": 0.0001,
      "loss": 0.1642,
      "step": 2561
    },
    {
      "epoch": 3.8422315536892624,
      "grad_norm": 0.15541541576385498,
      "learning_rate": 0.0001,
      "loss": 0.201,
      "step": 2562
    },
    {
      "epoch": 3.84373125374925,
      "grad_norm": 0.1322656124830246,
      "learning_rate": 0.0001,
      "loss": 0.1648,
      "step": 2563
    },
    {
      "epoch": 3.845230953809238,
      "grad_norm": 0.14579306542873383,
      "learning_rate": 0.0001,
      "loss": 0.1696,
      "step": 2564
    },
    {
      "epoch": 3.8467306538692263,
      "grad_norm": 0.15983660519123077,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 2565
    },
    {
      "epoch": 3.848230353929214,
      "grad_norm": 0.137687087059021,
      "learning_rate": 0.0001,
      "loss": 0.1638,
      "step": 2566
    },
    {
      "epoch": 3.849730053989202,
      "grad_norm": 0.16937309503555298,
      "learning_rate": 0.0001,
      "loss": 0.1968,
      "step": 2567
    },
    {
      "epoch": 3.85122975404919,
      "grad_norm": 0.1555909961462021,
      "learning_rate": 0.0001,
      "loss": 0.1916,
      "step": 2568
    },
    {
      "epoch": 3.8527294541091783,
      "grad_norm": 0.12335657328367233,
      "learning_rate": 0.0001,
      "loss": 0.1628,
      "step": 2569
    },
    {
      "epoch": 3.854229154169166,
      "grad_norm": 0.1383041888475418,
      "learning_rate": 0.0001,
      "loss": 0.1618,
      "step": 2570
    },
    {
      "epoch": 3.855728854229154,
      "grad_norm": 0.13144277036190033,
      "learning_rate": 0.0001,
      "loss": 0.1668,
      "step": 2571
    },
    {
      "epoch": 3.8572285542891422,
      "grad_norm": 0.15817661583423615,
      "learning_rate": 0.0001,
      "loss": 0.1621,
      "step": 2572
    },
    {
      "epoch": 3.8587282543491304,
      "grad_norm": 0.13296090066432953,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 2573
    },
    {
      "epoch": 3.860227954409118,
      "grad_norm": 0.12578120827674866,
      "learning_rate": 0.0001,
      "loss": 0.1711,
      "step": 2574
    },
    {
      "epoch": 3.861727654469106,
      "grad_norm": 0.1432846337556839,
      "learning_rate": 0.0001,
      "loss": 0.1697,
      "step": 2575
    },
    {
      "epoch": 3.8632273545290943,
      "grad_norm": 0.1401534527540207,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 2576
    },
    {
      "epoch": 3.864727054589082,
      "grad_norm": 0.12686793506145477,
      "learning_rate": 0.0001,
      "loss": 0.1649,
      "step": 2577
    },
    {
      "epoch": 3.86622675464907,
      "grad_norm": 0.17333050072193146,
      "learning_rate": 0.0001,
      "loss": 0.1791,
      "step": 2578
    },
    {
      "epoch": 3.867726454709058,
      "grad_norm": 0.1404038816690445,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 2579
    },
    {
      "epoch": 3.8692261547690463,
      "grad_norm": 0.13301126658916473,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 2580
    },
    {
      "epoch": 3.8707258548290344,
      "grad_norm": 0.12666362524032593,
      "learning_rate": 0.0001,
      "loss": 0.1598,
      "step": 2581
    },
    {
      "epoch": 3.872225554889022,
      "grad_norm": 0.14634573459625244,
      "learning_rate": 0.0001,
      "loss": 0.1732,
      "step": 2582
    },
    {
      "epoch": 3.87372525494901,
      "grad_norm": 0.13731606304645538,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 2583
    },
    {
      "epoch": 3.8752249550089983,
      "grad_norm": 0.14717738330364227,
      "learning_rate": 0.0001,
      "loss": 0.1786,
      "step": 2584
    },
    {
      "epoch": 3.876724655068986,
      "grad_norm": 0.13829860091209412,
      "learning_rate": 0.0001,
      "loss": 0.1896,
      "step": 2585
    },
    {
      "epoch": 3.878224355128974,
      "grad_norm": 0.15257805585861206,
      "learning_rate": 0.0001,
      "loss": 0.1704,
      "step": 2586
    },
    {
      "epoch": 3.8797240551889622,
      "grad_norm": 0.1487555205821991,
      "learning_rate": 0.0001,
      "loss": 0.1766,
      "step": 2587
    },
    {
      "epoch": 3.8812237552489504,
      "grad_norm": 0.12308818846940994,
      "learning_rate": 0.0001,
      "loss": 0.1523,
      "step": 2588
    },
    {
      "epoch": 3.8827234553089385,
      "grad_norm": 0.14492467045783997,
      "learning_rate": 0.0001,
      "loss": 0.1619,
      "step": 2589
    },
    {
      "epoch": 3.884223155368926,
      "grad_norm": 0.13972891867160797,
      "learning_rate": 0.0001,
      "loss": 0.1549,
      "step": 2590
    },
    {
      "epoch": 3.8857228554289143,
      "grad_norm": 0.12818443775177002,
      "learning_rate": 0.0001,
      "loss": 0.1628,
      "step": 2591
    },
    {
      "epoch": 3.8872225554889024,
      "grad_norm": 0.09973147511482239,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 2592
    },
    {
      "epoch": 3.88872225554889,
      "grad_norm": 0.12689262628555298,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 2593
    },
    {
      "epoch": 3.890221955608878,
      "grad_norm": 0.5127395391464233,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 2594
    },
    {
      "epoch": 3.8917216556688663,
      "grad_norm": 0.12201318889856339,
      "learning_rate": 0.0001,
      "loss": 0.1695,
      "step": 2595
    },
    {
      "epoch": 3.893221355728854,
      "grad_norm": 0.14851126074790955,
      "learning_rate": 0.0001,
      "loss": 0.183,
      "step": 2596
    },
    {
      "epoch": 3.894721055788842,
      "grad_norm": 0.12678804993629456,
      "learning_rate": 0.0001,
      "loss": 0.1499,
      "step": 2597
    },
    {
      "epoch": 3.89622075584883,
      "grad_norm": 0.14316102862358093,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 2598
    },
    {
      "epoch": 3.8977204559088183,
      "grad_norm": 0.13152259588241577,
      "learning_rate": 0.0001,
      "loss": 0.1714,
      "step": 2599
    },
    {
      "epoch": 3.8992201559688064,
      "grad_norm": 0.1205914169549942,
      "learning_rate": 0.0001,
      "loss": 0.1501,
      "step": 2600
    },
    {
      "epoch": 3.900719856028794,
      "grad_norm": 0.12126128375530243,
      "learning_rate": 0.0001,
      "loss": 0.1603,
      "step": 2601
    },
    {
      "epoch": 3.9022195560887822,
      "grad_norm": 0.15908609330654144,
      "learning_rate": 0.0001,
      "loss": 0.1613,
      "step": 2602
    },
    {
      "epoch": 3.9037192561487704,
      "grad_norm": 0.13798779249191284,
      "learning_rate": 0.0001,
      "loss": 0.1531,
      "step": 2603
    },
    {
      "epoch": 3.905218956208758,
      "grad_norm": 0.16066618263721466,
      "learning_rate": 0.0001,
      "loss": 0.1655,
      "step": 2604
    },
    {
      "epoch": 3.906718656268746,
      "grad_norm": 0.16133111715316772,
      "learning_rate": 0.0001,
      "loss": 0.1767,
      "step": 2605
    },
    {
      "epoch": 3.9082183563287343,
      "grad_norm": 0.14546947181224823,
      "learning_rate": 0.0001,
      "loss": 0.1781,
      "step": 2606
    },
    {
      "epoch": 3.9097180563887224,
      "grad_norm": 0.15758411586284637,
      "learning_rate": 0.0001,
      "loss": 0.1745,
      "step": 2607
    },
    {
      "epoch": 3.9112177564487105,
      "grad_norm": 0.1538620889186859,
      "learning_rate": 0.0001,
      "loss": 0.1733,
      "step": 2608
    },
    {
      "epoch": 3.912717456508698,
      "grad_norm": 0.1363346129655838,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 2609
    },
    {
      "epoch": 3.9142171565686863,
      "grad_norm": 0.1195528507232666,
      "learning_rate": 0.0001,
      "loss": 0.1728,
      "step": 2610
    },
    {
      "epoch": 3.9157168566286744,
      "grad_norm": 0.12340062856674194,
      "learning_rate": 0.0001,
      "loss": 0.1779,
      "step": 2611
    },
    {
      "epoch": 3.917216556688662,
      "grad_norm": 0.10978613048791885,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 2612
    },
    {
      "epoch": 3.91871625674865,
      "grad_norm": 0.12376180291175842,
      "learning_rate": 0.0001,
      "loss": 0.1638,
      "step": 2613
    },
    {
      "epoch": 3.9202159568086383,
      "grad_norm": 0.11933889985084534,
      "learning_rate": 0.0001,
      "loss": 0.1855,
      "step": 2614
    },
    {
      "epoch": 3.921715656868626,
      "grad_norm": 0.1281587779521942,
      "learning_rate": 0.0001,
      "loss": 0.1753,
      "step": 2615
    },
    {
      "epoch": 3.923215356928614,
      "grad_norm": 0.12392055243253708,
      "learning_rate": 0.0001,
      "loss": 0.1776,
      "step": 2616
    },
    {
      "epoch": 3.9247150569886022,
      "grad_norm": 0.11753157526254654,
      "learning_rate": 0.0001,
      "loss": 0.1786,
      "step": 2617
    },
    {
      "epoch": 3.9262147570485904,
      "grad_norm": 0.13061653077602386,
      "learning_rate": 0.0001,
      "loss": 0.1643,
      "step": 2618
    },
    {
      "epoch": 3.9277144571085785,
      "grad_norm": 0.113529272377491,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 2619
    },
    {
      "epoch": 3.929214157168566,
      "grad_norm": 0.14596545696258545,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 2620
    },
    {
      "epoch": 3.9307138572285543,
      "grad_norm": 0.12957066297531128,
      "learning_rate": 0.0001,
      "loss": 0.1656,
      "step": 2621
    },
    {
      "epoch": 3.9322135572885424,
      "grad_norm": 0.13606809079647064,
      "learning_rate": 0.0001,
      "loss": 0.1477,
      "step": 2622
    },
    {
      "epoch": 3.93371325734853,
      "grad_norm": 0.12930630147457123,
      "learning_rate": 0.0001,
      "loss": 0.1693,
      "step": 2623
    },
    {
      "epoch": 3.935212957408518,
      "grad_norm": 0.15420500934123993,
      "learning_rate": 0.0001,
      "loss": 0.1598,
      "step": 2624
    },
    {
      "epoch": 3.9367126574685063,
      "grad_norm": 0.12833403050899506,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 2625
    },
    {
      "epoch": 3.9382123575284944,
      "grad_norm": 0.15399658679962158,
      "learning_rate": 0.0001,
      "loss": 0.1801,
      "step": 2626
    },
    {
      "epoch": 3.9397120575884825,
      "grad_norm": 0.12880615890026093,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 2627
    },
    {
      "epoch": 3.94121175764847,
      "grad_norm": 0.22957880795001984,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 2628
    },
    {
      "epoch": 3.9427114577084583,
      "grad_norm": 0.1605544537305832,
      "learning_rate": 0.0001,
      "loss": 0.1746,
      "step": 2629
    },
    {
      "epoch": 3.9442111577684464,
      "grad_norm": 0.13743166625499725,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 2630
    },
    {
      "epoch": 3.945710857828434,
      "grad_norm": 0.15276090800762177,
      "learning_rate": 0.0001,
      "loss": 0.1769,
      "step": 2631
    },
    {
      "epoch": 3.9472105578884222,
      "grad_norm": 0.11609374731779099,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 2632
    },
    {
      "epoch": 3.9487102579484104,
      "grad_norm": 0.13244980573654175,
      "learning_rate": 0.0001,
      "loss": 0.1828,
      "step": 2633
    },
    {
      "epoch": 3.9502099580083985,
      "grad_norm": 0.13542208075523376,
      "learning_rate": 0.0001,
      "loss": 0.1752,
      "step": 2634
    },
    {
      "epoch": 3.9517096580683866,
      "grad_norm": 0.12740842998027802,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 2635
    },
    {
      "epoch": 3.9532093581283743,
      "grad_norm": 0.12669436633586884,
      "learning_rate": 0.0001,
      "loss": 0.1602,
      "step": 2636
    },
    {
      "epoch": 3.9547090581883624,
      "grad_norm": 0.14444608986377716,
      "learning_rate": 0.0001,
      "loss": 0.1825,
      "step": 2637
    },
    {
      "epoch": 3.9562087582483505,
      "grad_norm": 0.14802074432373047,
      "learning_rate": 0.0001,
      "loss": 0.176,
      "step": 2638
    },
    {
      "epoch": 3.957708458308338,
      "grad_norm": 0.13172408938407898,
      "learning_rate": 0.0001,
      "loss": 0.1578,
      "step": 2639
    },
    {
      "epoch": 3.9592081583683263,
      "grad_norm": 0.1321486085653305,
      "learning_rate": 0.0001,
      "loss": 0.1526,
      "step": 2640
    },
    {
      "epoch": 3.9607078584283144,
      "grad_norm": 0.13663405179977417,
      "learning_rate": 0.0001,
      "loss": 0.1669,
      "step": 2641
    },
    {
      "epoch": 3.962207558488302,
      "grad_norm": 0.12519730627536774,
      "learning_rate": 0.0001,
      "loss": 0.1651,
      "step": 2642
    },
    {
      "epoch": 3.96370725854829,
      "grad_norm": 0.15156780183315277,
      "learning_rate": 0.0001,
      "loss": 0.1679,
      "step": 2643
    },
    {
      "epoch": 3.9652069586082783,
      "grad_norm": 0.12759806215763092,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 2644
    },
    {
      "epoch": 3.9667066586682664,
      "grad_norm": 0.12745942175388336,
      "learning_rate": 0.0001,
      "loss": 0.16,
      "step": 2645
    },
    {
      "epoch": 3.9682063587282546,
      "grad_norm": 0.15949073433876038,
      "learning_rate": 0.0001,
      "loss": 0.1771,
      "step": 2646
    },
    {
      "epoch": 3.9697060587882422,
      "grad_norm": 0.15391717851161957,
      "learning_rate": 0.0001,
      "loss": 0.186,
      "step": 2647
    },
    {
      "epoch": 3.9712057588482303,
      "grad_norm": 0.11986564099788666,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 2648
    },
    {
      "epoch": 3.9727054589082185,
      "grad_norm": 0.1373530924320221,
      "learning_rate": 0.0001,
      "loss": 0.1619,
      "step": 2649
    },
    {
      "epoch": 3.974205158968206,
      "grad_norm": 0.12970060110092163,
      "learning_rate": 0.0001,
      "loss": 0.1595,
      "step": 2650
    },
    {
      "epoch": 3.9757048590281943,
      "grad_norm": 0.15417934954166412,
      "learning_rate": 0.0001,
      "loss": 0.1776,
      "step": 2651
    },
    {
      "epoch": 3.9772045590881824,
      "grad_norm": 0.13849972188472748,
      "learning_rate": 0.0001,
      "loss": 0.1802,
      "step": 2652
    },
    {
      "epoch": 3.9787042591481705,
      "grad_norm": 0.11992446333169937,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 2653
    },
    {
      "epoch": 3.9802039592081586,
      "grad_norm": 0.13139934837818146,
      "learning_rate": 0.0001,
      "loss": 0.1794,
      "step": 2654
    },
    {
      "epoch": 3.9817036592681463,
      "grad_norm": 0.12580032646656036,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 2655
    },
    {
      "epoch": 3.9832033593281344,
      "grad_norm": 0.17567408084869385,
      "learning_rate": 0.0001,
      "loss": 0.1804,
      "step": 2656
    },
    {
      "epoch": 3.9847030593881225,
      "grad_norm": 0.12352460622787476,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 2657
    },
    {
      "epoch": 3.98620275944811,
      "grad_norm": 0.13075470924377441,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2658
    },
    {
      "epoch": 3.9877024595080983,
      "grad_norm": 0.12371482700109482,
      "learning_rate": 0.0001,
      "loss": 0.1637,
      "step": 2659
    },
    {
      "epoch": 3.9892021595680864,
      "grad_norm": 0.11881982535123825,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 2660
    },
    {
      "epoch": 3.990701859628074,
      "grad_norm": 0.14425447583198547,
      "learning_rate": 0.0001,
      "loss": 0.1802,
      "step": 2661
    },
    {
      "epoch": 3.9922015596880622,
      "grad_norm": 0.15459497272968292,
      "learning_rate": 0.0001,
      "loss": 0.1715,
      "step": 2662
    },
    {
      "epoch": 3.9937012597480503,
      "grad_norm": 0.13293656706809998,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 2663
    },
    {
      "epoch": 3.9952009598080385,
      "grad_norm": 0.1309146285057068,
      "learning_rate": 0.0001,
      "loss": 0.1736,
      "step": 2664
    },
    {
      "epoch": 3.9967006598680266,
      "grad_norm": 0.13026465475559235,
      "learning_rate": 0.0001,
      "loss": 0.1738,
      "step": 2665
    },
    {
      "epoch": 3.9982003599280143,
      "grad_norm": 0.17325089871883392,
      "learning_rate": 0.0001,
      "loss": 0.1754,
      "step": 2666
    },
    {
      "epoch": 3.9997000599880024,
      "grad_norm": 0.1528167724609375,
      "learning_rate": 0.0001,
      "loss": 0.1696,
      "step": 2667
    },
    {
      "epoch": 4.0011997600479905,
      "grad_norm": 0.28940466046333313,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 2668
    },
    {
      "epoch": 4.002699460107978,
      "grad_norm": 0.1154581606388092,
      "learning_rate": 0.0001,
      "loss": 0.1674,
      "step": 2669
    },
    {
      "epoch": 4.004199160167967,
      "grad_norm": 0.13828429579734802,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 2670
    },
    {
      "epoch": 4.005698860227954,
      "grad_norm": 0.14292776584625244,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2671
    },
    {
      "epoch": 4.007198560287942,
      "grad_norm": 0.14059293270111084,
      "learning_rate": 0.0001,
      "loss": 0.1612,
      "step": 2672
    },
    {
      "epoch": 4.008698260347931,
      "grad_norm": 0.1613548845052719,
      "learning_rate": 0.0001,
      "loss": 0.1624,
      "step": 2673
    },
    {
      "epoch": 4.010197960407918,
      "grad_norm": 0.13775086402893066,
      "learning_rate": 0.0001,
      "loss": 0.1472,
      "step": 2674
    },
    {
      "epoch": 4.011697660467906,
      "grad_norm": 0.3502650856971741,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 2675
    },
    {
      "epoch": 4.0131973605278946,
      "grad_norm": 0.17061954736709595,
      "learning_rate": 0.0001,
      "loss": 0.1609,
      "step": 2676
    },
    {
      "epoch": 4.014697060587882,
      "grad_norm": 0.15788206458091736,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 2677
    },
    {
      "epoch": 4.016196760647871,
      "grad_norm": 0.16548338532447815,
      "learning_rate": 0.0001,
      "loss": 0.1589,
      "step": 2678
    },
    {
      "epoch": 4.0176964607078585,
      "grad_norm": 0.1405715048313141,
      "learning_rate": 0.0001,
      "loss": 0.1342,
      "step": 2679
    },
    {
      "epoch": 4.019196160767846,
      "grad_norm": 0.20134301483631134,
      "learning_rate": 0.0001,
      "loss": 0.1608,
      "step": 2680
    },
    {
      "epoch": 4.020695860827835,
      "grad_norm": 0.15585869550704956,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 2681
    },
    {
      "epoch": 4.022195560887822,
      "grad_norm": 0.18471410870552063,
      "learning_rate": 0.0001,
      "loss": 0.1638,
      "step": 2682
    },
    {
      "epoch": 4.02369526094781,
      "grad_norm": 0.21511881053447723,
      "learning_rate": 0.0001,
      "loss": 0.1583,
      "step": 2683
    },
    {
      "epoch": 4.025194961007799,
      "grad_norm": 0.1700124740600586,
      "learning_rate": 0.0001,
      "loss": 0.1674,
      "step": 2684
    },
    {
      "epoch": 4.026694661067786,
      "grad_norm": 0.18142347037792206,
      "learning_rate": 0.0001,
      "loss": 0.1552,
      "step": 2685
    },
    {
      "epoch": 4.028194361127775,
      "grad_norm": 0.1570502668619156,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 2686
    },
    {
      "epoch": 4.0296940611877625,
      "grad_norm": 0.13305385410785675,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 2687
    },
    {
      "epoch": 4.03119376124775,
      "grad_norm": 0.1710749864578247,
      "learning_rate": 0.0001,
      "loss": 0.1575,
      "step": 2688
    },
    {
      "epoch": 4.032693461307739,
      "grad_norm": 0.14651770889759064,
      "learning_rate": 0.0001,
      "loss": 0.1556,
      "step": 2689
    },
    {
      "epoch": 4.034193161367726,
      "grad_norm": 0.13662618398666382,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 2690
    },
    {
      "epoch": 4.035692861427714,
      "grad_norm": 0.24108527600765228,
      "learning_rate": 0.0001,
      "loss": 0.1614,
      "step": 2691
    },
    {
      "epoch": 4.037192561487703,
      "grad_norm": 0.14064921438694,
      "learning_rate": 0.0001,
      "loss": 0.141,
      "step": 2692
    },
    {
      "epoch": 4.03869226154769,
      "grad_norm": 0.14873389899730682,
      "learning_rate": 0.0001,
      "loss": 0.1578,
      "step": 2693
    },
    {
      "epoch": 4.040191961607679,
      "grad_norm": 0.15293379127979279,
      "learning_rate": 0.0001,
      "loss": 0.1608,
      "step": 2694
    },
    {
      "epoch": 4.041691661667667,
      "grad_norm": 0.15425190329551697,
      "learning_rate": 0.0001,
      "loss": 0.1333,
      "step": 2695
    },
    {
      "epoch": 4.043191361727654,
      "grad_norm": 0.150889053940773,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 2696
    },
    {
      "epoch": 4.044691061787643,
      "grad_norm": 0.13939782977104187,
      "learning_rate": 0.0001,
      "loss": 0.1465,
      "step": 2697
    },
    {
      "epoch": 4.0461907618476305,
      "grad_norm": 0.1553209275007248,
      "learning_rate": 0.0001,
      "loss": 0.1638,
      "step": 2698
    },
    {
      "epoch": 4.047690461907618,
      "grad_norm": 0.1695922613143921,
      "learning_rate": 0.0001,
      "loss": 0.1538,
      "step": 2699
    },
    {
      "epoch": 4.049190161967607,
      "grad_norm": 0.15069325268268585,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 2700
    },
    {
      "epoch": 4.050689862027594,
      "grad_norm": 0.16783370077610016,
      "learning_rate": 0.0001,
      "loss": 0.1543,
      "step": 2701
    },
    {
      "epoch": 4.052189562087582,
      "grad_norm": 0.167534738779068,
      "learning_rate": 0.0001,
      "loss": 0.1477,
      "step": 2702
    },
    {
      "epoch": 4.053689262147571,
      "grad_norm": 0.13029713928699493,
      "learning_rate": 0.0001,
      "loss": 0.1409,
      "step": 2703
    },
    {
      "epoch": 4.055188962207558,
      "grad_norm": 0.1642344743013382,
      "learning_rate": 0.0001,
      "loss": 0.1528,
      "step": 2704
    },
    {
      "epoch": 4.056688662267547,
      "grad_norm": 0.16830475628376007,
      "learning_rate": 0.0001,
      "loss": 0.1666,
      "step": 2705
    },
    {
      "epoch": 4.0581883623275345,
      "grad_norm": 0.15904736518859863,
      "learning_rate": 0.0001,
      "loss": 0.1428,
      "step": 2706
    },
    {
      "epoch": 4.059688062387522,
      "grad_norm": 0.15417280793190002,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 2707
    },
    {
      "epoch": 4.061187762447511,
      "grad_norm": 0.1415899395942688,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 2708
    },
    {
      "epoch": 4.0626874625074985,
      "grad_norm": 0.14334553480148315,
      "learning_rate": 0.0001,
      "loss": 0.1351,
      "step": 2709
    },
    {
      "epoch": 4.064187162567486,
      "grad_norm": 0.1666492223739624,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 2710
    },
    {
      "epoch": 4.065686862627475,
      "grad_norm": 0.14759215712547302,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 2711
    },
    {
      "epoch": 4.067186562687462,
      "grad_norm": 0.15908391773700714,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 2712
    },
    {
      "epoch": 4.068686262747451,
      "grad_norm": 0.13428828120231628,
      "learning_rate": 0.0001,
      "loss": 0.1462,
      "step": 2713
    },
    {
      "epoch": 4.070185962807439,
      "grad_norm": 0.16205409169197083,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 2714
    },
    {
      "epoch": 4.071685662867426,
      "grad_norm": 0.44038403034210205,
      "learning_rate": 0.0001,
      "loss": 0.1415,
      "step": 2715
    },
    {
      "epoch": 4.073185362927415,
      "grad_norm": 0.2061510682106018,
      "learning_rate": 0.0001,
      "loss": 0.1703,
      "step": 2716
    },
    {
      "epoch": 4.0746850629874025,
      "grad_norm": 0.14068956673145294,
      "learning_rate": 0.0001,
      "loss": 0.1486,
      "step": 2717
    },
    {
      "epoch": 4.07618476304739,
      "grad_norm": 0.17289909720420837,
      "learning_rate": 0.0001,
      "loss": 0.164,
      "step": 2718
    },
    {
      "epoch": 4.077684463107379,
      "grad_norm": 0.16961883008480072,
      "learning_rate": 0.0001,
      "loss": 0.145,
      "step": 2719
    },
    {
      "epoch": 4.079184163167366,
      "grad_norm": 0.14580965042114258,
      "learning_rate": 0.0001,
      "loss": 0.1416,
      "step": 2720
    },
    {
      "epoch": 4.080683863227354,
      "grad_norm": 0.16121330857276917,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 2721
    },
    {
      "epoch": 4.082183563287343,
      "grad_norm": 0.14603063464164734,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 2722
    },
    {
      "epoch": 4.08368326334733,
      "grad_norm": 0.1381487101316452,
      "learning_rate": 0.0001,
      "loss": 0.1491,
      "step": 2723
    },
    {
      "epoch": 4.085182963407319,
      "grad_norm": 0.14637160301208496,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 2724
    },
    {
      "epoch": 4.086682663467307,
      "grad_norm": 0.14945685863494873,
      "learning_rate": 0.0001,
      "loss": 0.1607,
      "step": 2725
    },
    {
      "epoch": 4.088182363527294,
      "grad_norm": 0.12673765420913696,
      "learning_rate": 0.0001,
      "loss": 0.1285,
      "step": 2726
    },
    {
      "epoch": 4.089682063587283,
      "grad_norm": 0.15615861117839813,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 2727
    },
    {
      "epoch": 4.0911817636472705,
      "grad_norm": 0.16800068318843842,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 2728
    },
    {
      "epoch": 4.092681463707258,
      "grad_norm": 0.1507524698972702,
      "learning_rate": 0.0001,
      "loss": 0.1531,
      "step": 2729
    },
    {
      "epoch": 4.094181163767247,
      "grad_norm": 0.1722281575202942,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 2730
    },
    {
      "epoch": 4.095680863827234,
      "grad_norm": 0.15421995520591736,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 2731
    },
    {
      "epoch": 4.097180563887223,
      "grad_norm": 0.1592920571565628,
      "learning_rate": 0.0001,
      "loss": 0.1542,
      "step": 2732
    },
    {
      "epoch": 4.098680263947211,
      "grad_norm": 0.1386885643005371,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 2733
    },
    {
      "epoch": 4.100179964007198,
      "grad_norm": 0.19511505961418152,
      "learning_rate": 0.0001,
      "loss": 0.1522,
      "step": 2734
    },
    {
      "epoch": 4.101679664067187,
      "grad_norm": 0.15615183115005493,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 2735
    },
    {
      "epoch": 4.1031793641271745,
      "grad_norm": 0.14136815071105957,
      "learning_rate": 0.0001,
      "loss": 0.1432,
      "step": 2736
    },
    {
      "epoch": 4.104679064187162,
      "grad_norm": 0.15004566311836243,
      "learning_rate": 0.0001,
      "loss": 0.1419,
      "step": 2737
    },
    {
      "epoch": 4.106178764247151,
      "grad_norm": 0.14382551610469818,
      "learning_rate": 0.0001,
      "loss": 0.1586,
      "step": 2738
    },
    {
      "epoch": 4.1076784643071385,
      "grad_norm": 0.15845641493797302,
      "learning_rate": 0.0001,
      "loss": 0.1484,
      "step": 2739
    },
    {
      "epoch": 4.109178164367126,
      "grad_norm": 0.14864474534988403,
      "learning_rate": 0.0001,
      "loss": 0.1575,
      "step": 2740
    },
    {
      "epoch": 4.110677864427115,
      "grad_norm": 0.16084380447864532,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 2741
    },
    {
      "epoch": 4.112177564487102,
      "grad_norm": 0.19470667839050293,
      "learning_rate": 0.0001,
      "loss": 0.1755,
      "step": 2742
    },
    {
      "epoch": 4.113677264547091,
      "grad_norm": 0.14772658050060272,
      "learning_rate": 0.0001,
      "loss": 0.1535,
      "step": 2743
    },
    {
      "epoch": 4.115176964607079,
      "grad_norm": 0.1324920803308487,
      "learning_rate": 0.0001,
      "loss": 0.1424,
      "step": 2744
    },
    {
      "epoch": 4.116676664667066,
      "grad_norm": 0.15430457890033722,
      "learning_rate": 0.0001,
      "loss": 0.155,
      "step": 2745
    },
    {
      "epoch": 4.118176364727055,
      "grad_norm": 0.12955757975578308,
      "learning_rate": 0.0001,
      "loss": 0.146,
      "step": 2746
    },
    {
      "epoch": 4.1196760647870425,
      "grad_norm": 0.13296513259410858,
      "learning_rate": 0.0001,
      "loss": 0.1435,
      "step": 2747
    },
    {
      "epoch": 4.12117576484703,
      "grad_norm": 0.17946957051753998,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 2748
    },
    {
      "epoch": 4.122675464907019,
      "grad_norm": 0.16645662486553192,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 2749
    },
    {
      "epoch": 4.124175164967006,
      "grad_norm": 0.15648813545703888,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 2750
    },
    {
      "epoch": 4.125674865026995,
      "grad_norm": 0.13904936611652374,
      "learning_rate": 0.0001,
      "loss": 0.1314,
      "step": 2751
    },
    {
      "epoch": 4.127174565086983,
      "grad_norm": 0.1453932225704193,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 2752
    },
    {
      "epoch": 4.12867426514697,
      "grad_norm": 0.13733093440532684,
      "learning_rate": 0.0001,
      "loss": 0.1411,
      "step": 2753
    },
    {
      "epoch": 4.130173965206959,
      "grad_norm": 0.17724734544754028,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 2754
    },
    {
      "epoch": 4.131673665266947,
      "grad_norm": 0.1595812737941742,
      "learning_rate": 0.0001,
      "loss": 0.1468,
      "step": 2755
    },
    {
      "epoch": 4.133173365326934,
      "grad_norm": 0.1462358981370926,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 2756
    },
    {
      "epoch": 4.134673065386923,
      "grad_norm": 0.17375697195529938,
      "learning_rate": 0.0001,
      "loss": 0.1484,
      "step": 2757
    },
    {
      "epoch": 4.1361727654469105,
      "grad_norm": 0.1703222543001175,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 2758
    },
    {
      "epoch": 4.137672465506899,
      "grad_norm": 0.16215889155864716,
      "learning_rate": 0.0001,
      "loss": 0.1329,
      "step": 2759
    },
    {
      "epoch": 4.139172165566887,
      "grad_norm": 0.18442469835281372,
      "learning_rate": 0.0001,
      "loss": 0.1466,
      "step": 2760
    },
    {
      "epoch": 4.140671865626874,
      "grad_norm": 0.16472646594047546,
      "learning_rate": 0.0001,
      "loss": 0.1614,
      "step": 2761
    },
    {
      "epoch": 4.142171565686863,
      "grad_norm": 0.14861102402210236,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 2762
    },
    {
      "epoch": 4.143671265746851,
      "grad_norm": 0.1514992117881775,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 2763
    },
    {
      "epoch": 4.145170965806838,
      "grad_norm": 0.1682576984167099,
      "learning_rate": 0.0001,
      "loss": 0.1576,
      "step": 2764
    },
    {
      "epoch": 4.146670665866827,
      "grad_norm": 0.17745348811149597,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 2765
    },
    {
      "epoch": 4.1481703659268145,
      "grad_norm": 0.16802667081356049,
      "learning_rate": 0.0001,
      "loss": 0.1649,
      "step": 2766
    },
    {
      "epoch": 4.149670065986802,
      "grad_norm": 0.1702938824892044,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 2767
    },
    {
      "epoch": 4.151169766046791,
      "grad_norm": 0.15546536445617676,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 2768
    },
    {
      "epoch": 4.1526694661067785,
      "grad_norm": 0.15163923799991608,
      "learning_rate": 0.0001,
      "loss": 0.1494,
      "step": 2769
    },
    {
      "epoch": 4.154169166166767,
      "grad_norm": 0.17477253079414368,
      "learning_rate": 0.0001,
      "loss": 0.1589,
      "step": 2770
    },
    {
      "epoch": 4.155668866226755,
      "grad_norm": 0.18137934803962708,
      "learning_rate": 0.0001,
      "loss": 0.1568,
      "step": 2771
    },
    {
      "epoch": 4.157168566286742,
      "grad_norm": 0.15518274903297424,
      "learning_rate": 0.0001,
      "loss": 0.1655,
      "step": 2772
    },
    {
      "epoch": 4.158668266346731,
      "grad_norm": 0.1440957933664322,
      "learning_rate": 0.0001,
      "loss": 0.1492,
      "step": 2773
    },
    {
      "epoch": 4.160167966406719,
      "grad_norm": 0.16816353797912598,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 2774
    },
    {
      "epoch": 4.161667666466706,
      "grad_norm": 0.15522968769073486,
      "learning_rate": 0.0001,
      "loss": 0.1511,
      "step": 2775
    },
    {
      "epoch": 4.163167366526695,
      "grad_norm": 0.20462815463542938,
      "learning_rate": 0.0001,
      "loss": 0.1424,
      "step": 2776
    },
    {
      "epoch": 4.1646670665866825,
      "grad_norm": 0.17889274656772614,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 2777
    },
    {
      "epoch": 4.166166766646671,
      "grad_norm": 0.1608554869890213,
      "learning_rate": 0.0001,
      "loss": 0.1469,
      "step": 2778
    },
    {
      "epoch": 4.167666466706659,
      "grad_norm": 0.26529890298843384,
      "learning_rate": 0.0001,
      "loss": 0.1614,
      "step": 2779
    },
    {
      "epoch": 4.169166166766646,
      "grad_norm": 0.18129104375839233,
      "learning_rate": 0.0001,
      "loss": 0.1663,
      "step": 2780
    },
    {
      "epoch": 4.170665866826635,
      "grad_norm": 0.16435979306697845,
      "learning_rate": 0.0001,
      "loss": 0.1697,
      "step": 2781
    },
    {
      "epoch": 4.172165566886623,
      "grad_norm": 0.15828347206115723,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 2782
    },
    {
      "epoch": 4.17366526694661,
      "grad_norm": 0.21661396324634552,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 2783
    },
    {
      "epoch": 4.175164967006599,
      "grad_norm": 0.1682857871055603,
      "learning_rate": 0.0001,
      "loss": 0.1409,
      "step": 2784
    },
    {
      "epoch": 4.176664667066587,
      "grad_norm": 0.12508325278759003,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 2785
    },
    {
      "epoch": 4.178164367126575,
      "grad_norm": 0.17881561815738678,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 2786
    },
    {
      "epoch": 4.179664067186563,
      "grad_norm": 0.16902659833431244,
      "learning_rate": 0.0001,
      "loss": 0.1629,
      "step": 2787
    },
    {
      "epoch": 4.1811637672465505,
      "grad_norm": 0.1940394937992096,
      "learning_rate": 0.0001,
      "loss": 0.1737,
      "step": 2788
    },
    {
      "epoch": 4.182663467306539,
      "grad_norm": 0.1433422714471817,
      "learning_rate": 0.0001,
      "loss": 0.1489,
      "step": 2789
    },
    {
      "epoch": 4.184163167366527,
      "grad_norm": 0.16731134057044983,
      "learning_rate": 0.0001,
      "loss": 0.1403,
      "step": 2790
    },
    {
      "epoch": 4.185662867426514,
      "grad_norm": 0.14786513149738312,
      "learning_rate": 0.0001,
      "loss": 0.146,
      "step": 2791
    },
    {
      "epoch": 4.187162567486503,
      "grad_norm": 0.16585569083690643,
      "learning_rate": 0.0001,
      "loss": 0.1674,
      "step": 2792
    },
    {
      "epoch": 4.188662267546491,
      "grad_norm": 0.14545968174934387,
      "learning_rate": 0.0001,
      "loss": 0.1399,
      "step": 2793
    },
    {
      "epoch": 4.190161967606478,
      "grad_norm": 0.16910317540168762,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 2794
    },
    {
      "epoch": 4.191661667666467,
      "grad_norm": 0.1429634988307953,
      "learning_rate": 0.0001,
      "loss": 0.1553,
      "step": 2795
    },
    {
      "epoch": 4.1931613677264545,
      "grad_norm": 0.1638326793909073,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 2796
    },
    {
      "epoch": 4.194661067786443,
      "grad_norm": 0.21353310346603394,
      "learning_rate": 0.0001,
      "loss": 0.1461,
      "step": 2797
    },
    {
      "epoch": 4.196160767846431,
      "grad_norm": 0.18136973679065704,
      "learning_rate": 0.0001,
      "loss": 0.16,
      "step": 2798
    },
    {
      "epoch": 4.1976604679064184,
      "grad_norm": 0.16732555627822876,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 2799
    },
    {
      "epoch": 4.199160167966407,
      "grad_norm": 0.16558001935482025,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 2800
    },
    {
      "epoch": 4.200659868026395,
      "grad_norm": 0.14384813606739044,
      "learning_rate": 0.0001,
      "loss": 0.1463,
      "step": 2801
    },
    {
      "epoch": 4.202159568086382,
      "grad_norm": 0.18318185210227966,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 2802
    },
    {
      "epoch": 4.203659268146371,
      "grad_norm": 0.1310650110244751,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 2803
    },
    {
      "epoch": 4.205158968206359,
      "grad_norm": 0.1581955850124359,
      "learning_rate": 0.0001,
      "loss": 0.1551,
      "step": 2804
    },
    {
      "epoch": 4.206658668266347,
      "grad_norm": 0.1619979739189148,
      "learning_rate": 0.0001,
      "loss": 0.1583,
      "step": 2805
    },
    {
      "epoch": 4.208158368326335,
      "grad_norm": 0.16429822146892548,
      "learning_rate": 0.0001,
      "loss": 0.1606,
      "step": 2806
    },
    {
      "epoch": 4.2096580683863225,
      "grad_norm": 0.1646999567747116,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 2807
    },
    {
      "epoch": 4.211157768446311,
      "grad_norm": 0.18874263763427734,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 2808
    },
    {
      "epoch": 4.212657468506299,
      "grad_norm": 0.141933411359787,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 2809
    },
    {
      "epoch": 4.214157168566286,
      "grad_norm": 0.1680993139743805,
      "learning_rate": 0.0001,
      "loss": 0.1445,
      "step": 2810
    },
    {
      "epoch": 4.215656868626275,
      "grad_norm": 0.1582314670085907,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 2811
    },
    {
      "epoch": 4.217156568686263,
      "grad_norm": 0.16141149401664734,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 2812
    },
    {
      "epoch": 4.21865626874625,
      "grad_norm": 0.15452970564365387,
      "learning_rate": 0.0001,
      "loss": 0.1608,
      "step": 2813
    },
    {
      "epoch": 4.220155968806239,
      "grad_norm": 0.15991799533367157,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 2814
    },
    {
      "epoch": 4.221655668866227,
      "grad_norm": 0.15522098541259766,
      "learning_rate": 0.0001,
      "loss": 0.139,
      "step": 2815
    },
    {
      "epoch": 4.223155368926215,
      "grad_norm": 0.17970576882362366,
      "learning_rate": 0.0001,
      "loss": 0.169,
      "step": 2816
    },
    {
      "epoch": 4.224655068986203,
      "grad_norm": 0.16587312519550323,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 2817
    },
    {
      "epoch": 4.2261547690461905,
      "grad_norm": 0.15008969604969025,
      "learning_rate": 0.0001,
      "loss": 0.1561,
      "step": 2818
    },
    {
      "epoch": 4.227654469106179,
      "grad_norm": 0.13953913748264313,
      "learning_rate": 0.0001,
      "loss": 0.1581,
      "step": 2819
    },
    {
      "epoch": 4.229154169166167,
      "grad_norm": 0.16551417112350464,
      "learning_rate": 0.0001,
      "loss": 0.1567,
      "step": 2820
    },
    {
      "epoch": 4.230653869226154,
      "grad_norm": 0.15820686519145966,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 2821
    },
    {
      "epoch": 4.232153569286143,
      "grad_norm": 0.16092568635940552,
      "learning_rate": 0.0001,
      "loss": 0.1678,
      "step": 2822
    },
    {
      "epoch": 4.233653269346131,
      "grad_norm": 0.14073430001735687,
      "learning_rate": 0.0001,
      "loss": 0.1451,
      "step": 2823
    },
    {
      "epoch": 4.235152969406119,
      "grad_norm": 0.1711166501045227,
      "learning_rate": 0.0001,
      "loss": 0.1665,
      "step": 2824
    },
    {
      "epoch": 4.236652669466107,
      "grad_norm": 0.15544317662715912,
      "learning_rate": 0.0001,
      "loss": 0.1701,
      "step": 2825
    },
    {
      "epoch": 4.2381523695260945,
      "grad_norm": 0.18352581560611725,
      "learning_rate": 0.0001,
      "loss": 0.1684,
      "step": 2826
    },
    {
      "epoch": 4.239652069586083,
      "grad_norm": 0.18527230620384216,
      "learning_rate": 0.0001,
      "loss": 0.1425,
      "step": 2827
    },
    {
      "epoch": 4.241151769646071,
      "grad_norm": 0.1472206562757492,
      "learning_rate": 0.0001,
      "loss": 0.1522,
      "step": 2828
    },
    {
      "epoch": 4.242651469706058,
      "grad_norm": 0.14159028232097626,
      "learning_rate": 0.0001,
      "loss": 0.1519,
      "step": 2829
    },
    {
      "epoch": 4.244151169766047,
      "grad_norm": 0.18207937479019165,
      "learning_rate": 0.0001,
      "loss": 0.1507,
      "step": 2830
    },
    {
      "epoch": 4.245650869826035,
      "grad_norm": 0.1313304603099823,
      "learning_rate": 0.0001,
      "loss": 0.148,
      "step": 2831
    },
    {
      "epoch": 4.247150569886022,
      "grad_norm": 0.1609359085559845,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 2832
    },
    {
      "epoch": 4.248650269946011,
      "grad_norm": 0.22647985816001892,
      "learning_rate": 0.0001,
      "loss": 0.1495,
      "step": 2833
    },
    {
      "epoch": 4.250149970005999,
      "grad_norm": 0.16918936371803284,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 2834
    },
    {
      "epoch": 4.251649670065987,
      "grad_norm": 0.18604698777198792,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 2835
    },
    {
      "epoch": 4.253149370125975,
      "grad_norm": 0.16307008266448975,
      "learning_rate": 0.0001,
      "loss": 0.1671,
      "step": 2836
    },
    {
      "epoch": 4.2546490701859625,
      "grad_norm": 0.16072934865951538,
      "learning_rate": 0.0001,
      "loss": 0.1499,
      "step": 2837
    },
    {
      "epoch": 4.256148770245951,
      "grad_norm": 0.18007835745811462,
      "learning_rate": 0.0001,
      "loss": 0.1538,
      "step": 2838
    },
    {
      "epoch": 4.257648470305939,
      "grad_norm": 0.15925291180610657,
      "learning_rate": 0.0001,
      "loss": 0.1537,
      "step": 2839
    },
    {
      "epoch": 4.259148170365926,
      "grad_norm": 0.161587193608284,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 2840
    },
    {
      "epoch": 4.260647870425915,
      "grad_norm": 0.1711072474718094,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 2841
    },
    {
      "epoch": 4.262147570485903,
      "grad_norm": 0.16909003257751465,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 2842
    },
    {
      "epoch": 4.263647270545891,
      "grad_norm": 0.1456790566444397,
      "learning_rate": 0.0001,
      "loss": 0.1372,
      "step": 2843
    },
    {
      "epoch": 4.265146970605879,
      "grad_norm": 0.15317733585834503,
      "learning_rate": 0.0001,
      "loss": 0.1671,
      "step": 2844
    },
    {
      "epoch": 4.266646670665867,
      "grad_norm": 0.15664029121398926,
      "learning_rate": 0.0001,
      "loss": 0.1583,
      "step": 2845
    },
    {
      "epoch": 4.268146370725855,
      "grad_norm": 0.16415463387966156,
      "learning_rate": 0.0001,
      "loss": 0.1451,
      "step": 2846
    },
    {
      "epoch": 4.269646070785843,
      "grad_norm": 0.1589587777853012,
      "learning_rate": 0.0001,
      "loss": 0.1584,
      "step": 2847
    },
    {
      "epoch": 4.2711457708458305,
      "grad_norm": 0.14813828468322754,
      "learning_rate": 0.0001,
      "loss": 0.155,
      "step": 2848
    },
    {
      "epoch": 4.272645470905819,
      "grad_norm": 0.16908256709575653,
      "learning_rate": 0.0001,
      "loss": 0.1501,
      "step": 2849
    },
    {
      "epoch": 4.274145170965807,
      "grad_norm": 0.17196357250213623,
      "learning_rate": 0.0001,
      "loss": 0.1576,
      "step": 2850
    },
    {
      "epoch": 4.275644871025795,
      "grad_norm": 0.15945622324943542,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 2851
    },
    {
      "epoch": 4.277144571085783,
      "grad_norm": 0.15270653367042542,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 2852
    },
    {
      "epoch": 4.278644271145771,
      "grad_norm": 0.12901555001735687,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 2853
    },
    {
      "epoch": 4.280143971205759,
      "grad_norm": 0.15831507742404938,
      "learning_rate": 0.0001,
      "loss": 0.1478,
      "step": 2854
    },
    {
      "epoch": 4.281643671265747,
      "grad_norm": 0.16248996555805206,
      "learning_rate": 0.0001,
      "loss": 0.1404,
      "step": 2855
    },
    {
      "epoch": 4.2831433713257345,
      "grad_norm": 0.15061046183109283,
      "learning_rate": 0.0001,
      "loss": 0.1638,
      "step": 2856
    },
    {
      "epoch": 4.284643071385723,
      "grad_norm": 0.1589912325143814,
      "learning_rate": 0.0001,
      "loss": 0.1409,
      "step": 2857
    },
    {
      "epoch": 4.286142771445711,
      "grad_norm": 0.1502358764410019,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 2858
    },
    {
      "epoch": 4.287642471505698,
      "grad_norm": 0.14980842173099518,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 2859
    },
    {
      "epoch": 4.289142171565687,
      "grad_norm": 0.15741334855556488,
      "learning_rate": 0.0001,
      "loss": 0.1547,
      "step": 2860
    },
    {
      "epoch": 4.290641871625675,
      "grad_norm": 0.14797110855579376,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 2861
    },
    {
      "epoch": 4.292141571685663,
      "grad_norm": 0.15731076896190643,
      "learning_rate": 0.0001,
      "loss": 0.1414,
      "step": 2862
    },
    {
      "epoch": 4.293641271745651,
      "grad_norm": 0.16753701865673065,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 2863
    },
    {
      "epoch": 4.295140971805639,
      "grad_norm": 0.15460848808288574,
      "learning_rate": 0.0001,
      "loss": 0.1552,
      "step": 2864
    },
    {
      "epoch": 4.296640671865627,
      "grad_norm": 0.1602533608675003,
      "learning_rate": 0.0001,
      "loss": 0.1511,
      "step": 2865
    },
    {
      "epoch": 4.298140371925615,
      "grad_norm": 0.1928260773420334,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 2866
    },
    {
      "epoch": 4.2996400719856025,
      "grad_norm": 0.2067829966545105,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 2867
    },
    {
      "epoch": 4.301139772045591,
      "grad_norm": 0.16982893645763397,
      "learning_rate": 0.0001,
      "loss": 0.1496,
      "step": 2868
    },
    {
      "epoch": 4.302639472105579,
      "grad_norm": 0.1519094556570053,
      "learning_rate": 0.0001,
      "loss": 0.1473,
      "step": 2869
    },
    {
      "epoch": 4.304139172165567,
      "grad_norm": 0.16508832573890686,
      "learning_rate": 0.0001,
      "loss": 0.1687,
      "step": 2870
    },
    {
      "epoch": 4.305638872225555,
      "grad_norm": 0.15550976991653442,
      "learning_rate": 0.0001,
      "loss": 0.1529,
      "step": 2871
    },
    {
      "epoch": 4.307138572285543,
      "grad_norm": 0.1426781266927719,
      "learning_rate": 0.0001,
      "loss": 0.1553,
      "step": 2872
    },
    {
      "epoch": 4.308638272345531,
      "grad_norm": 0.18043680489063263,
      "learning_rate": 0.0001,
      "loss": 0.1625,
      "step": 2873
    },
    {
      "epoch": 4.310137972405519,
      "grad_norm": 0.16793088614940643,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 2874
    },
    {
      "epoch": 4.3116376724655066,
      "grad_norm": 0.1560121476650238,
      "learning_rate": 0.0001,
      "loss": 0.1408,
      "step": 2875
    },
    {
      "epoch": 4.313137372525495,
      "grad_norm": 0.16781263053417206,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 2876
    },
    {
      "epoch": 4.314637072585483,
      "grad_norm": 0.16289781033992767,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 2877
    },
    {
      "epoch": 4.316136772645471,
      "grad_norm": 0.16888205707073212,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 2878
    },
    {
      "epoch": 4.317636472705459,
      "grad_norm": 0.16750025749206543,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 2879
    },
    {
      "epoch": 4.319136172765447,
      "grad_norm": 0.14857801795005798,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 2880
    },
    {
      "epoch": 4.320635872825435,
      "grad_norm": 0.18559856712818146,
      "learning_rate": 0.0001,
      "loss": 0.1724,
      "step": 2881
    },
    {
      "epoch": 4.322135572885423,
      "grad_norm": 0.1510780304670334,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 2882
    },
    {
      "epoch": 4.323635272945411,
      "grad_norm": 0.15104302763938904,
      "learning_rate": 0.0001,
      "loss": 0.1383,
      "step": 2883
    },
    {
      "epoch": 4.325134973005399,
      "grad_norm": 0.16579361259937286,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 2884
    },
    {
      "epoch": 4.326634673065387,
      "grad_norm": 0.16386885941028595,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 2885
    },
    {
      "epoch": 4.3281343731253745,
      "grad_norm": 0.14583995938301086,
      "learning_rate": 0.0001,
      "loss": 0.1479,
      "step": 2886
    },
    {
      "epoch": 4.329634073185363,
      "grad_norm": 0.1454642415046692,
      "learning_rate": 0.0001,
      "loss": 0.1796,
      "step": 2887
    },
    {
      "epoch": 4.331133773245351,
      "grad_norm": 0.17026466131210327,
      "learning_rate": 0.0001,
      "loss": 0.1677,
      "step": 2888
    },
    {
      "epoch": 4.332633473305339,
      "grad_norm": 0.1644410640001297,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 2889
    },
    {
      "epoch": 4.334133173365327,
      "grad_norm": 0.14782078564167023,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 2890
    },
    {
      "epoch": 4.335632873425315,
      "grad_norm": 0.16237731277942657,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 2891
    },
    {
      "epoch": 4.337132573485303,
      "grad_norm": 0.1477689892053604,
      "learning_rate": 0.0001,
      "loss": 0.1675,
      "step": 2892
    },
    {
      "epoch": 4.338632273545291,
      "grad_norm": 0.13055403530597687,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 2893
    },
    {
      "epoch": 4.340131973605279,
      "grad_norm": 0.15141130983829498,
      "learning_rate": 0.0001,
      "loss": 0.1467,
      "step": 2894
    },
    {
      "epoch": 4.341631673665267,
      "grad_norm": 0.15273891389369965,
      "learning_rate": 0.0001,
      "loss": 0.1651,
      "step": 2895
    },
    {
      "epoch": 4.343131373725255,
      "grad_norm": 0.1700442135334015,
      "learning_rate": 0.0001,
      "loss": 0.1693,
      "step": 2896
    },
    {
      "epoch": 4.3446310737852425,
      "grad_norm": 0.14455822110176086,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 2897
    },
    {
      "epoch": 4.346130773845231,
      "grad_norm": 0.286568820476532,
      "learning_rate": 0.0001,
      "loss": 0.1618,
      "step": 2898
    },
    {
      "epoch": 4.347630473905219,
      "grad_norm": 0.1492224782705307,
      "learning_rate": 0.0001,
      "loss": 0.1436,
      "step": 2899
    },
    {
      "epoch": 4.349130173965207,
      "grad_norm": 0.16082051396369934,
      "learning_rate": 0.0001,
      "loss": 0.1542,
      "step": 2900
    },
    {
      "epoch": 4.350629874025195,
      "grad_norm": 0.17576345801353455,
      "learning_rate": 0.0001,
      "loss": 0.1468,
      "step": 2901
    },
    {
      "epoch": 4.352129574085183,
      "grad_norm": 0.16453304886817932,
      "learning_rate": 0.0001,
      "loss": 0.1618,
      "step": 2902
    },
    {
      "epoch": 4.353629274145171,
      "grad_norm": 0.1753266155719757,
      "learning_rate": 0.0001,
      "loss": 0.1436,
      "step": 2903
    },
    {
      "epoch": 4.355128974205159,
      "grad_norm": 0.15701085329055786,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 2904
    },
    {
      "epoch": 4.356628674265147,
      "grad_norm": 0.2056688368320465,
      "learning_rate": 0.0001,
      "loss": 0.1623,
      "step": 2905
    },
    {
      "epoch": 4.358128374325135,
      "grad_norm": 0.15395832061767578,
      "learning_rate": 0.0001,
      "loss": 0.159,
      "step": 2906
    },
    {
      "epoch": 4.359628074385123,
      "grad_norm": 0.25775036215782166,
      "learning_rate": 0.0001,
      "loss": 0.1492,
      "step": 2907
    },
    {
      "epoch": 4.361127774445111,
      "grad_norm": 0.14773273468017578,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 2908
    },
    {
      "epoch": 4.362627474505099,
      "grad_norm": 0.1281803548336029,
      "learning_rate": 0.0001,
      "loss": 0.142,
      "step": 2909
    },
    {
      "epoch": 4.364127174565087,
      "grad_norm": 0.154662624001503,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 2910
    },
    {
      "epoch": 4.365626874625075,
      "grad_norm": 0.15274396538734436,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 2911
    },
    {
      "epoch": 4.367126574685063,
      "grad_norm": 0.15200766921043396,
      "learning_rate": 0.0001,
      "loss": 0.1457,
      "step": 2912
    },
    {
      "epoch": 4.368626274745051,
      "grad_norm": 0.1389416754245758,
      "learning_rate": 0.0001,
      "loss": 0.1492,
      "step": 2913
    },
    {
      "epoch": 4.370125974805039,
      "grad_norm": 0.16184823215007782,
      "learning_rate": 0.0001,
      "loss": 0.1473,
      "step": 2914
    },
    {
      "epoch": 4.371625674865027,
      "grad_norm": 0.2578449547290802,
      "learning_rate": 0.0001,
      "loss": 0.165,
      "step": 2915
    },
    {
      "epoch": 4.373125374925015,
      "grad_norm": 0.18871062994003296,
      "learning_rate": 0.0001,
      "loss": 0.1388,
      "step": 2916
    },
    {
      "epoch": 4.374625074985003,
      "grad_norm": 0.15958018600940704,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 2917
    },
    {
      "epoch": 4.376124775044991,
      "grad_norm": 0.1487080156803131,
      "learning_rate": 0.0001,
      "loss": 0.1665,
      "step": 2918
    },
    {
      "epoch": 4.377624475104979,
      "grad_norm": 0.16685383021831512,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 2919
    },
    {
      "epoch": 4.379124175164967,
      "grad_norm": 0.18016786873340607,
      "learning_rate": 0.0001,
      "loss": 0.1487,
      "step": 2920
    },
    {
      "epoch": 4.380623875224955,
      "grad_norm": 0.1461522877216339,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 2921
    },
    {
      "epoch": 4.382123575284943,
      "grad_norm": 0.17117705941200256,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 2922
    },
    {
      "epoch": 4.383623275344931,
      "grad_norm": 0.2048293799161911,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 2923
    },
    {
      "epoch": 4.385122975404919,
      "grad_norm": 0.12430397421121597,
      "learning_rate": 0.0001,
      "loss": 0.1414,
      "step": 2924
    },
    {
      "epoch": 4.386622675464907,
      "grad_norm": 0.14355860650539398,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 2925
    },
    {
      "epoch": 4.388122375524895,
      "grad_norm": 0.15662600100040436,
      "learning_rate": 0.0001,
      "loss": 0.1529,
      "step": 2926
    },
    {
      "epoch": 4.389622075584883,
      "grad_norm": 0.1198655366897583,
      "learning_rate": 0.0001,
      "loss": 0.1474,
      "step": 2927
    },
    {
      "epoch": 4.391121775644871,
      "grad_norm": 0.13961492478847504,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 2928
    },
    {
      "epoch": 4.392621475704859,
      "grad_norm": 0.14779019355773926,
      "learning_rate": 0.0001,
      "loss": 0.1515,
      "step": 2929
    },
    {
      "epoch": 4.394121175764847,
      "grad_norm": 0.16101354360580444,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 2930
    },
    {
      "epoch": 4.395620875824835,
      "grad_norm": 0.14645220339298248,
      "learning_rate": 0.0001,
      "loss": 0.15,
      "step": 2931
    },
    {
      "epoch": 4.397120575884823,
      "grad_norm": 0.14722704887390137,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 2932
    },
    {
      "epoch": 4.398620275944811,
      "grad_norm": 0.15494419634342194,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 2933
    },
    {
      "epoch": 4.400119976004799,
      "grad_norm": 0.1434805989265442,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 2934
    },
    {
      "epoch": 4.401619676064787,
      "grad_norm": 0.1757802814245224,
      "learning_rate": 0.0001,
      "loss": 0.1522,
      "step": 2935
    },
    {
      "epoch": 4.403119376124775,
      "grad_norm": 0.2237882912158966,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 2936
    },
    {
      "epoch": 4.404619076184763,
      "grad_norm": 0.14675721526145935,
      "learning_rate": 0.0001,
      "loss": 0.1435,
      "step": 2937
    },
    {
      "epoch": 4.406118776244751,
      "grad_norm": 0.42554911971092224,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 2938
    },
    {
      "epoch": 4.407618476304739,
      "grad_norm": 0.17538979649543762,
      "learning_rate": 0.0001,
      "loss": 0.1579,
      "step": 2939
    },
    {
      "epoch": 4.409118176364727,
      "grad_norm": 0.17605261504650116,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 2940
    },
    {
      "epoch": 4.410617876424715,
      "grad_norm": 0.16001130640506744,
      "learning_rate": 0.0001,
      "loss": 0.1382,
      "step": 2941
    },
    {
      "epoch": 4.412117576484703,
      "grad_norm": 0.18180350959300995,
      "learning_rate": 0.0001,
      "loss": 0.1489,
      "step": 2942
    },
    {
      "epoch": 4.4136172765446915,
      "grad_norm": 0.18880102038383484,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 2943
    },
    {
      "epoch": 4.415116976604679,
      "grad_norm": 0.1645774096250534,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 2944
    },
    {
      "epoch": 4.416616676664667,
      "grad_norm": 0.17158177495002747,
      "learning_rate": 0.0001,
      "loss": 0.1618,
      "step": 2945
    },
    {
      "epoch": 4.418116376724655,
      "grad_norm": 0.16368667781352997,
      "learning_rate": 0.0001,
      "loss": 0.1473,
      "step": 2946
    },
    {
      "epoch": 4.419616076784643,
      "grad_norm": 0.15878991782665253,
      "learning_rate": 0.0001,
      "loss": 0.1545,
      "step": 2947
    },
    {
      "epoch": 4.421115776844631,
      "grad_norm": 0.1403982937335968,
      "learning_rate": 0.0001,
      "loss": 0.1519,
      "step": 2948
    },
    {
      "epoch": 4.422615476904619,
      "grad_norm": 0.16441741585731506,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 2949
    },
    {
      "epoch": 4.424115176964607,
      "grad_norm": 0.17375175654888153,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 2950
    },
    {
      "epoch": 4.425614877024595,
      "grad_norm": 0.1363624781370163,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 2951
    },
    {
      "epoch": 4.427114577084583,
      "grad_norm": 0.18020929396152496,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 2952
    },
    {
      "epoch": 4.428614277144571,
      "grad_norm": 0.17540180683135986,
      "learning_rate": 0.0001,
      "loss": 0.1499,
      "step": 2953
    },
    {
      "epoch": 4.4301139772045595,
      "grad_norm": 0.14415955543518066,
      "learning_rate": 0.0001,
      "loss": 0.1488,
      "step": 2954
    },
    {
      "epoch": 4.431613677264547,
      "grad_norm": 0.16948918998241425,
      "learning_rate": 0.0001,
      "loss": 0.1695,
      "step": 2955
    },
    {
      "epoch": 4.433113377324535,
      "grad_norm": 0.13770543038845062,
      "learning_rate": 0.0001,
      "loss": 0.155,
      "step": 2956
    },
    {
      "epoch": 4.434613077384523,
      "grad_norm": 0.16871044039726257,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 2957
    },
    {
      "epoch": 4.436112777444511,
      "grad_norm": 0.14432063698768616,
      "learning_rate": 0.0001,
      "loss": 0.1481,
      "step": 2958
    },
    {
      "epoch": 4.437612477504499,
      "grad_norm": 0.1554342359304428,
      "learning_rate": 0.0001,
      "loss": 0.1499,
      "step": 2959
    },
    {
      "epoch": 4.439112177564487,
      "grad_norm": 0.1460961103439331,
      "learning_rate": 0.0001,
      "loss": 0.1503,
      "step": 2960
    },
    {
      "epoch": 4.440611877624475,
      "grad_norm": 0.14133591949939728,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 2961
    },
    {
      "epoch": 4.4421115776844635,
      "grad_norm": 0.1658245027065277,
      "learning_rate": 0.0001,
      "loss": 0.157,
      "step": 2962
    },
    {
      "epoch": 4.443611277744451,
      "grad_norm": 0.15674151480197906,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 2963
    },
    {
      "epoch": 4.445110977804439,
      "grad_norm": 0.16246122121810913,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 2964
    },
    {
      "epoch": 4.446610677864427,
      "grad_norm": 0.13120463490486145,
      "learning_rate": 0.0001,
      "loss": 0.1309,
      "step": 2965
    },
    {
      "epoch": 4.448110377924415,
      "grad_norm": 0.15108364820480347,
      "learning_rate": 0.0001,
      "loss": 0.1486,
      "step": 2966
    },
    {
      "epoch": 4.449610077984403,
      "grad_norm": 0.1687573790550232,
      "learning_rate": 0.0001,
      "loss": 0.1431,
      "step": 2967
    },
    {
      "epoch": 4.451109778044391,
      "grad_norm": 0.16831275820732117,
      "learning_rate": 0.0001,
      "loss": 0.1717,
      "step": 2968
    },
    {
      "epoch": 4.452609478104379,
      "grad_norm": 0.1628342568874359,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 2969
    },
    {
      "epoch": 4.454109178164368,
      "grad_norm": 0.13844963908195496,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 2970
    },
    {
      "epoch": 4.455608878224355,
      "grad_norm": 0.14629746973514557,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 2971
    },
    {
      "epoch": 4.457108578284343,
      "grad_norm": 0.17770400643348694,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 2972
    },
    {
      "epoch": 4.4586082783443315,
      "grad_norm": 0.2223561406135559,
      "learning_rate": 0.0001,
      "loss": 0.1651,
      "step": 2973
    },
    {
      "epoch": 4.460107978404319,
      "grad_norm": 0.18014493584632874,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 2974
    },
    {
      "epoch": 4.461607678464307,
      "grad_norm": 0.15018296241760254,
      "learning_rate": 0.0001,
      "loss": 0.1491,
      "step": 2975
    },
    {
      "epoch": 4.463107378524295,
      "grad_norm": 0.16349734365940094,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 2976
    },
    {
      "epoch": 4.464607078584283,
      "grad_norm": 0.16107295453548431,
      "learning_rate": 0.0001,
      "loss": 0.1523,
      "step": 2977
    },
    {
      "epoch": 4.466106778644271,
      "grad_norm": 0.17967459559440613,
      "learning_rate": 0.0001,
      "loss": 0.1545,
      "step": 2978
    },
    {
      "epoch": 4.467606478704259,
      "grad_norm": 0.1418941468000412,
      "learning_rate": 0.0001,
      "loss": 0.1377,
      "step": 2979
    },
    {
      "epoch": 4.469106178764247,
      "grad_norm": 0.14911991357803345,
      "learning_rate": 0.0001,
      "loss": 0.1586,
      "step": 2980
    },
    {
      "epoch": 4.4706058788242355,
      "grad_norm": 0.15553458034992218,
      "learning_rate": 0.0001,
      "loss": 0.1405,
      "step": 2981
    },
    {
      "epoch": 4.472105578884223,
      "grad_norm": 0.1503976732492447,
      "learning_rate": 0.0001,
      "loss": 0.1442,
      "step": 2982
    },
    {
      "epoch": 4.473605278944211,
      "grad_norm": 0.15226849913597107,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 2983
    },
    {
      "epoch": 4.4751049790041995,
      "grad_norm": 0.1970537006855011,
      "learning_rate": 0.0001,
      "loss": 0.1772,
      "step": 2984
    },
    {
      "epoch": 4.476604679064187,
      "grad_norm": 0.16632747650146484,
      "learning_rate": 0.0001,
      "loss": 0.1576,
      "step": 2985
    },
    {
      "epoch": 4.478104379124175,
      "grad_norm": 0.15600861608982086,
      "learning_rate": 0.0001,
      "loss": 0.1567,
      "step": 2986
    },
    {
      "epoch": 4.479604079184163,
      "grad_norm": 0.15033748745918274,
      "learning_rate": 0.0001,
      "loss": 0.1581,
      "step": 2987
    },
    {
      "epoch": 4.481103779244151,
      "grad_norm": 0.13935460150241852,
      "learning_rate": 0.0001,
      "loss": 0.1465,
      "step": 2988
    },
    {
      "epoch": 4.482603479304139,
      "grad_norm": 0.12129371613264084,
      "learning_rate": 0.0001,
      "loss": 0.1342,
      "step": 2989
    },
    {
      "epoch": 4.484103179364127,
      "grad_norm": 0.16515575349330902,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 2990
    },
    {
      "epoch": 4.485602879424115,
      "grad_norm": 0.13781172037124634,
      "learning_rate": 0.0001,
      "loss": 0.151,
      "step": 2991
    },
    {
      "epoch": 4.4871025794841035,
      "grad_norm": 0.1651046872138977,
      "learning_rate": 0.0001,
      "loss": 0.1571,
      "step": 2992
    },
    {
      "epoch": 4.488602279544091,
      "grad_norm": 0.15161828696727753,
      "learning_rate": 0.0001,
      "loss": 0.1453,
      "step": 2993
    },
    {
      "epoch": 4.490101979604079,
      "grad_norm": 0.1611817479133606,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 2994
    },
    {
      "epoch": 4.491601679664067,
      "grad_norm": 0.16836848855018616,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 2995
    },
    {
      "epoch": 4.493101379724055,
      "grad_norm": 0.1868624985218048,
      "learning_rate": 0.0001,
      "loss": 0.1651,
      "step": 2996
    },
    {
      "epoch": 4.494601079784044,
      "grad_norm": 0.15138889849185944,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 2997
    },
    {
      "epoch": 4.496100779844031,
      "grad_norm": 0.16569939255714417,
      "learning_rate": 0.0001,
      "loss": 0.1594,
      "step": 2998
    },
    {
      "epoch": 4.497600479904019,
      "grad_norm": 0.1857796162366867,
      "learning_rate": 0.0001,
      "loss": 0.1619,
      "step": 2999
    },
    {
      "epoch": 4.499100179964008,
      "grad_norm": 0.18983501195907593,
      "learning_rate": 0.0001,
      "loss": 0.1756,
      "step": 3000
    },
    {
      "epoch": 4.499100179964008,
      "eval_loss": 0.19429020583629608,
      "eval_runtime": 511.1651,
      "eval_samples_per_second": 4.891,
      "eval_steps_per_second": 1.223,
      "step": 3000
    },
    {
      "epoch": 4.500599880023995,
      "grad_norm": 0.13659173250198364,
      "learning_rate": 0.0001,
      "loss": 0.1359,
      "step": 3001
    },
    {
      "epoch": 4.502099580083983,
      "grad_norm": 0.2023371458053589,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 3002
    },
    {
      "epoch": 4.5035992801439715,
      "grad_norm": 0.3394637703895569,
      "learning_rate": 0.0001,
      "loss": 0.1609,
      "step": 3003
    },
    {
      "epoch": 4.505098980203959,
      "grad_norm": 0.17726387083530426,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 3004
    },
    {
      "epoch": 4.506598680263947,
      "grad_norm": 0.209377259016037,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 3005
    },
    {
      "epoch": 4.508098380323935,
      "grad_norm": 0.15580767393112183,
      "learning_rate": 0.0001,
      "loss": 0.1524,
      "step": 3006
    },
    {
      "epoch": 4.509598080383923,
      "grad_norm": 0.14995983242988586,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3007
    },
    {
      "epoch": 4.511097780443912,
      "grad_norm": 0.18420715630054474,
      "learning_rate": 0.0001,
      "loss": 0.1717,
      "step": 3008
    },
    {
      "epoch": 4.512597480503899,
      "grad_norm": 0.1561502367258072,
      "learning_rate": 0.0001,
      "loss": 0.1536,
      "step": 3009
    },
    {
      "epoch": 4.514097180563887,
      "grad_norm": 0.1672542840242386,
      "learning_rate": 0.0001,
      "loss": 0.1468,
      "step": 3010
    },
    {
      "epoch": 4.5155968806238755,
      "grad_norm": 0.14513975381851196,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 3011
    },
    {
      "epoch": 4.517096580683863,
      "grad_norm": 0.13190454244613647,
      "learning_rate": 0.0001,
      "loss": 0.148,
      "step": 3012
    },
    {
      "epoch": 4.518596280743851,
      "grad_norm": 0.13574302196502686,
      "learning_rate": 0.0001,
      "loss": 0.1531,
      "step": 3013
    },
    {
      "epoch": 4.5200959808038395,
      "grad_norm": 0.14966359734535217,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 3014
    },
    {
      "epoch": 4.521595680863827,
      "grad_norm": 0.13220080733299255,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 3015
    },
    {
      "epoch": 4.523095380923815,
      "grad_norm": 0.15832163393497467,
      "learning_rate": 0.0001,
      "loss": 0.1553,
      "step": 3016
    },
    {
      "epoch": 4.524595080983803,
      "grad_norm": 0.1389782726764679,
      "learning_rate": 0.0001,
      "loss": 0.1544,
      "step": 3017
    },
    {
      "epoch": 4.526094781043791,
      "grad_norm": 0.1638309806585312,
      "learning_rate": 0.0001,
      "loss": 0.1652,
      "step": 3018
    },
    {
      "epoch": 4.52759448110378,
      "grad_norm": 0.15732735395431519,
      "learning_rate": 0.0001,
      "loss": 0.1639,
      "step": 3019
    },
    {
      "epoch": 4.529094181163767,
      "grad_norm": 0.17610453069210052,
      "learning_rate": 0.0001,
      "loss": 0.1709,
      "step": 3020
    },
    {
      "epoch": 4.530593881223755,
      "grad_norm": 0.493131160736084,
      "learning_rate": 0.0001,
      "loss": 0.1541,
      "step": 3021
    },
    {
      "epoch": 4.5320935812837435,
      "grad_norm": 0.13801273703575134,
      "learning_rate": 0.0001,
      "loss": 0.1382,
      "step": 3022
    },
    {
      "epoch": 4.533593281343731,
      "grad_norm": 0.13873690366744995,
      "learning_rate": 0.0001,
      "loss": 0.1432,
      "step": 3023
    },
    {
      "epoch": 4.53509298140372,
      "grad_norm": 0.13111816346645355,
      "learning_rate": 0.0001,
      "loss": 0.1462,
      "step": 3024
    },
    {
      "epoch": 4.536592681463707,
      "grad_norm": 0.14564597606658936,
      "learning_rate": 0.0001,
      "loss": 0.1697,
      "step": 3025
    },
    {
      "epoch": 4.538092381523695,
      "grad_norm": 0.15359854698181152,
      "learning_rate": 0.0001,
      "loss": 0.1607,
      "step": 3026
    },
    {
      "epoch": 4.539592081583683,
      "grad_norm": 0.1476576179265976,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3027
    },
    {
      "epoch": 4.541091781643671,
      "grad_norm": 0.3485625386238098,
      "learning_rate": 0.0001,
      "loss": 0.1484,
      "step": 3028
    },
    {
      "epoch": 4.542591481703659,
      "grad_norm": 0.15091368556022644,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 3029
    },
    {
      "epoch": 4.544091181763648,
      "grad_norm": 0.14703136682510376,
      "learning_rate": 0.0001,
      "loss": 0.1386,
      "step": 3030
    },
    {
      "epoch": 4.545590881823635,
      "grad_norm": 0.14561502635478973,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 3031
    },
    {
      "epoch": 4.547090581883623,
      "grad_norm": 0.16569896042346954,
      "learning_rate": 0.0001,
      "loss": 0.1762,
      "step": 3032
    },
    {
      "epoch": 4.5485902819436115,
      "grad_norm": 0.15248531103134155,
      "learning_rate": 0.0001,
      "loss": 0.1561,
      "step": 3033
    },
    {
      "epoch": 4.550089982003599,
      "grad_norm": 0.15699563920497894,
      "learning_rate": 0.0001,
      "loss": 0.1405,
      "step": 3034
    },
    {
      "epoch": 4.551589682063588,
      "grad_norm": 0.1420990228652954,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 3035
    },
    {
      "epoch": 4.553089382123575,
      "grad_norm": 0.14326143264770508,
      "learning_rate": 0.0001,
      "loss": 0.1612,
      "step": 3036
    },
    {
      "epoch": 4.554589082183563,
      "grad_norm": 0.15575213730335236,
      "learning_rate": 0.0001,
      "loss": 0.1571,
      "step": 3037
    },
    {
      "epoch": 4.556088782243552,
      "grad_norm": 0.13498558104038239,
      "learning_rate": 0.0001,
      "loss": 0.1623,
      "step": 3038
    },
    {
      "epoch": 4.557588482303539,
      "grad_norm": 0.16184738278388977,
      "learning_rate": 0.0001,
      "loss": 0.145,
      "step": 3039
    },
    {
      "epoch": 4.559088182363527,
      "grad_norm": 0.1539532095193863,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 3040
    },
    {
      "epoch": 4.5605878824235155,
      "grad_norm": 0.1777036339044571,
      "learning_rate": 0.0001,
      "loss": 0.159,
      "step": 3041
    },
    {
      "epoch": 4.562087582483503,
      "grad_norm": 0.1419355571269989,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 3042
    },
    {
      "epoch": 4.563587282543491,
      "grad_norm": 0.16464965045452118,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 3043
    },
    {
      "epoch": 4.5650869826034794,
      "grad_norm": 0.17944853007793427,
      "learning_rate": 0.0001,
      "loss": 0.1595,
      "step": 3044
    },
    {
      "epoch": 4.566586682663467,
      "grad_norm": 0.17687676846981049,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 3045
    },
    {
      "epoch": 4.568086382723456,
      "grad_norm": 0.18031610548496246,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 3046
    },
    {
      "epoch": 4.569586082783443,
      "grad_norm": 0.18453219532966614,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 3047
    },
    {
      "epoch": 4.571085782843431,
      "grad_norm": 0.25848785042762756,
      "learning_rate": 0.0001,
      "loss": 0.1523,
      "step": 3048
    },
    {
      "epoch": 4.57258548290342,
      "grad_norm": 0.13009630143642426,
      "learning_rate": 0.0001,
      "loss": 0.1374,
      "step": 3049
    },
    {
      "epoch": 4.574085182963407,
      "grad_norm": 0.14261044561862946,
      "learning_rate": 0.0001,
      "loss": 0.1503,
      "step": 3050
    },
    {
      "epoch": 4.575584883023395,
      "grad_norm": 0.13645808398723602,
      "learning_rate": 0.0001,
      "loss": 0.157,
      "step": 3051
    },
    {
      "epoch": 4.5770845830833835,
      "grad_norm": 0.15276384353637695,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 3052
    },
    {
      "epoch": 4.578584283143371,
      "grad_norm": 0.5317279696464539,
      "learning_rate": 0.0001,
      "loss": 0.1669,
      "step": 3053
    },
    {
      "epoch": 4.580083983203359,
      "grad_norm": 0.11716701835393906,
      "learning_rate": 0.0001,
      "loss": 0.1421,
      "step": 3054
    },
    {
      "epoch": 4.581583683263347,
      "grad_norm": 0.16126570105552673,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 3055
    },
    {
      "epoch": 4.583083383323335,
      "grad_norm": 0.1552426815032959,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 3056
    },
    {
      "epoch": 4.584583083383324,
      "grad_norm": 0.18658696115016937,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 3057
    },
    {
      "epoch": 4.586082783443311,
      "grad_norm": 0.13231518864631653,
      "learning_rate": 0.0001,
      "loss": 0.1469,
      "step": 3058
    },
    {
      "epoch": 4.587582483503299,
      "grad_norm": 0.15180741250514984,
      "learning_rate": 0.0001,
      "loss": 0.1579,
      "step": 3059
    },
    {
      "epoch": 4.589082183563288,
      "grad_norm": 0.14173583686351776,
      "learning_rate": 0.0001,
      "loss": 0.1671,
      "step": 3060
    },
    {
      "epoch": 4.590581883623275,
      "grad_norm": 0.19540759921073914,
      "learning_rate": 0.0001,
      "loss": 0.1663,
      "step": 3061
    },
    {
      "epoch": 4.592081583683264,
      "grad_norm": 0.18130706250667572,
      "learning_rate": 0.0001,
      "loss": 0.172,
      "step": 3062
    },
    {
      "epoch": 4.5935812837432515,
      "grad_norm": 0.1490059643983841,
      "learning_rate": 0.0001,
      "loss": 0.1545,
      "step": 3063
    },
    {
      "epoch": 4.595080983803239,
      "grad_norm": 0.15863266587257385,
      "learning_rate": 0.0001,
      "loss": 0.1627,
      "step": 3064
    },
    {
      "epoch": 4.596580683863228,
      "grad_norm": 0.15471932291984558,
      "learning_rate": 0.0001,
      "loss": 0.1586,
      "step": 3065
    },
    {
      "epoch": 4.598080383923215,
      "grad_norm": 0.16425348818302155,
      "learning_rate": 0.0001,
      "loss": 0.1584,
      "step": 3066
    },
    {
      "epoch": 4.599580083983203,
      "grad_norm": 0.152914896607399,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 3067
    },
    {
      "epoch": 4.601079784043192,
      "grad_norm": 0.14199404418468475,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 3068
    },
    {
      "epoch": 4.602579484103179,
      "grad_norm": 0.1579313427209854,
      "learning_rate": 0.0001,
      "loss": 0.1582,
      "step": 3069
    },
    {
      "epoch": 4.604079184163167,
      "grad_norm": 0.14857514202594757,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 3070
    },
    {
      "epoch": 4.6055788842231555,
      "grad_norm": 0.1613338142633438,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 3071
    },
    {
      "epoch": 4.607078584283143,
      "grad_norm": 0.13472074270248413,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 3072
    },
    {
      "epoch": 4.608578284343132,
      "grad_norm": 0.1570531725883484,
      "learning_rate": 0.0001,
      "loss": 0.1685,
      "step": 3073
    },
    {
      "epoch": 4.6100779844031194,
      "grad_norm": 0.15125611424446106,
      "learning_rate": 0.0001,
      "loss": 0.1437,
      "step": 3074
    },
    {
      "epoch": 4.611577684463107,
      "grad_norm": 0.14246241748332977,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3075
    },
    {
      "epoch": 4.613077384523096,
      "grad_norm": 0.14514508843421936,
      "learning_rate": 0.0001,
      "loss": 0.1482,
      "step": 3076
    },
    {
      "epoch": 4.614577084583083,
      "grad_norm": 0.1580948382616043,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 3077
    },
    {
      "epoch": 4.616076784643071,
      "grad_norm": 0.1657739281654358,
      "learning_rate": 0.0001,
      "loss": 0.1709,
      "step": 3078
    },
    {
      "epoch": 4.61757648470306,
      "grad_norm": 0.14767982065677643,
      "learning_rate": 0.0001,
      "loss": 0.1359,
      "step": 3079
    },
    {
      "epoch": 4.619076184763047,
      "grad_norm": 0.1357836127281189,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 3080
    },
    {
      "epoch": 4.620575884823035,
      "grad_norm": 0.1543532758951187,
      "learning_rate": 0.0001,
      "loss": 0.1751,
      "step": 3081
    },
    {
      "epoch": 4.6220755848830235,
      "grad_norm": 0.1494389772415161,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 3082
    },
    {
      "epoch": 4.623575284943011,
      "grad_norm": 0.15908005833625793,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 3083
    },
    {
      "epoch": 4.625074985003,
      "grad_norm": 0.19816574454307556,
      "learning_rate": 0.0001,
      "loss": 0.1515,
      "step": 3084
    },
    {
      "epoch": 4.626574685062987,
      "grad_norm": 0.1579216569662094,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 3085
    },
    {
      "epoch": 4.628074385122975,
      "grad_norm": 0.15127204358577728,
      "learning_rate": 0.0001,
      "loss": 0.157,
      "step": 3086
    },
    {
      "epoch": 4.629574085182964,
      "grad_norm": 0.15198072791099548,
      "learning_rate": 0.0001,
      "loss": 0.148,
      "step": 3087
    },
    {
      "epoch": 4.631073785242951,
      "grad_norm": 0.1564764678478241,
      "learning_rate": 0.0001,
      "loss": 0.1411,
      "step": 3088
    },
    {
      "epoch": 4.63257348530294,
      "grad_norm": 0.15501829981803894,
      "learning_rate": 0.0001,
      "loss": 0.1586,
      "step": 3089
    },
    {
      "epoch": 4.634073185362928,
      "grad_norm": 0.243696928024292,
      "learning_rate": 0.0001,
      "loss": 0.1674,
      "step": 3090
    },
    {
      "epoch": 4.635572885422915,
      "grad_norm": 0.15590883791446686,
      "learning_rate": 0.0001,
      "loss": 0.1527,
      "step": 3091
    },
    {
      "epoch": 4.637072585482904,
      "grad_norm": 0.14811334013938904,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 3092
    },
    {
      "epoch": 4.6385722855428915,
      "grad_norm": 0.19675636291503906,
      "learning_rate": 0.0001,
      "loss": 0.1527,
      "step": 3093
    },
    {
      "epoch": 4.640071985602879,
      "grad_norm": 0.17917387187480927,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 3094
    },
    {
      "epoch": 4.641571685662868,
      "grad_norm": 0.14318855106830597,
      "learning_rate": 0.0001,
      "loss": 0.1433,
      "step": 3095
    },
    {
      "epoch": 4.643071385722855,
      "grad_norm": 0.1541481912136078,
      "learning_rate": 0.0001,
      "loss": 0.1679,
      "step": 3096
    },
    {
      "epoch": 4.644571085782843,
      "grad_norm": 0.15130731463432312,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3097
    },
    {
      "epoch": 4.646070785842832,
      "grad_norm": 0.15715883672237396,
      "learning_rate": 0.0001,
      "loss": 0.1558,
      "step": 3098
    },
    {
      "epoch": 4.647570485902819,
      "grad_norm": 0.1512880176305771,
      "learning_rate": 0.0001,
      "loss": 0.1483,
      "step": 3099
    },
    {
      "epoch": 4.649070185962808,
      "grad_norm": 0.1554960459470749,
      "learning_rate": 0.0001,
      "loss": 0.1621,
      "step": 3100
    },
    {
      "epoch": 4.6505698860227955,
      "grad_norm": 0.1554960459470749,
      "learning_rate": 0.0001,
      "loss": 0.1821,
      "step": 3101
    },
    {
      "epoch": 4.652069586082783,
      "grad_norm": 0.13630534708499908,
      "learning_rate": 0.0001,
      "loss": 0.1364,
      "step": 3102
    },
    {
      "epoch": 4.653569286142772,
      "grad_norm": 0.1429663747549057,
      "learning_rate": 0.0001,
      "loss": 0.1664,
      "step": 3103
    },
    {
      "epoch": 4.655068986202759,
      "grad_norm": 0.1499670147895813,
      "learning_rate": 0.0001,
      "loss": 0.1794,
      "step": 3104
    },
    {
      "epoch": 4.656568686262747,
      "grad_norm": 0.1471845507621765,
      "learning_rate": 0.0001,
      "loss": 0.162,
      "step": 3105
    },
    {
      "epoch": 4.658068386322736,
      "grad_norm": 0.4099586606025696,
      "learning_rate": 0.0001,
      "loss": 0.1604,
      "step": 3106
    },
    {
      "epoch": 4.659568086382723,
      "grad_norm": 0.16286511719226837,
      "learning_rate": 0.0001,
      "loss": 0.1478,
      "step": 3107
    },
    {
      "epoch": 4.661067786442711,
      "grad_norm": 0.3611275553703308,
      "learning_rate": 0.0001,
      "loss": 0.1436,
      "step": 3108
    },
    {
      "epoch": 4.6625674865027,
      "grad_norm": 0.16527032852172852,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 3109
    },
    {
      "epoch": 4.664067186562687,
      "grad_norm": 0.14446523785591125,
      "learning_rate": 0.0001,
      "loss": 0.1451,
      "step": 3110
    },
    {
      "epoch": 4.665566886622676,
      "grad_norm": 0.1540665328502655,
      "learning_rate": 0.0001,
      "loss": 0.1629,
      "step": 3111
    },
    {
      "epoch": 4.6670665866826635,
      "grad_norm": 0.1555989682674408,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 3112
    },
    {
      "epoch": 4.668566286742651,
      "grad_norm": 0.1795223355293274,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 3113
    },
    {
      "epoch": 4.67006598680264,
      "grad_norm": 0.1732180118560791,
      "learning_rate": 0.0001,
      "loss": 0.1578,
      "step": 3114
    },
    {
      "epoch": 4.671565686862627,
      "grad_norm": 0.15641602873802185,
      "learning_rate": 0.0001,
      "loss": 0.1374,
      "step": 3115
    },
    {
      "epoch": 4.673065386922616,
      "grad_norm": 0.14771974086761475,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 3116
    },
    {
      "epoch": 4.674565086982604,
      "grad_norm": 0.15957579016685486,
      "learning_rate": 0.0001,
      "loss": 0.1626,
      "step": 3117
    },
    {
      "epoch": 4.676064787042591,
      "grad_norm": 0.14044825732707977,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 3118
    },
    {
      "epoch": 4.677564487102579,
      "grad_norm": 0.33938708901405334,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 3119
    },
    {
      "epoch": 4.679064187162568,
      "grad_norm": 0.15716135501861572,
      "learning_rate": 0.0001,
      "loss": 0.1494,
      "step": 3120
    },
    {
      "epoch": 4.680563887222555,
      "grad_norm": 0.18012675642967224,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 3121
    },
    {
      "epoch": 4.682063587282544,
      "grad_norm": 0.14930586516857147,
      "learning_rate": 0.0001,
      "loss": 0.1462,
      "step": 3122
    },
    {
      "epoch": 4.6835632873425315,
      "grad_norm": 0.14476363360881805,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 3123
    },
    {
      "epoch": 4.685062987402519,
      "grad_norm": 0.17640303075313568,
      "learning_rate": 0.0001,
      "loss": 0.1584,
      "step": 3124
    },
    {
      "epoch": 4.686562687462508,
      "grad_norm": 0.14910531044006348,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 3125
    },
    {
      "epoch": 4.688062387522495,
      "grad_norm": 0.14664871990680695,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 3126
    },
    {
      "epoch": 4.689562087582484,
      "grad_norm": 0.26626256108283997,
      "learning_rate": 0.0001,
      "loss": 0.1535,
      "step": 3127
    },
    {
      "epoch": 4.691061787642472,
      "grad_norm": 0.13935142755508423,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 3128
    },
    {
      "epoch": 4.692561487702459,
      "grad_norm": 0.1318519413471222,
      "learning_rate": 0.0001,
      "loss": 0.1603,
      "step": 3129
    },
    {
      "epoch": 4.694061187762448,
      "grad_norm": 0.1746765524148941,
      "learning_rate": 0.0001,
      "loss": 0.1709,
      "step": 3130
    },
    {
      "epoch": 4.6955608878224355,
      "grad_norm": 0.13867908716201782,
      "learning_rate": 0.0001,
      "loss": 0.1482,
      "step": 3131
    },
    {
      "epoch": 4.697060587882423,
      "grad_norm": 0.1605539321899414,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 3132
    },
    {
      "epoch": 4.698560287942412,
      "grad_norm": 0.12384581565856934,
      "learning_rate": 0.0001,
      "loss": 0.1379,
      "step": 3133
    },
    {
      "epoch": 4.700059988002399,
      "grad_norm": 0.1542997509241104,
      "learning_rate": 0.0001,
      "loss": 0.164,
      "step": 3134
    },
    {
      "epoch": 4.701559688062387,
      "grad_norm": 0.16371983289718628,
      "learning_rate": 0.0001,
      "loss": 0.1731,
      "step": 3135
    },
    {
      "epoch": 4.703059388122376,
      "grad_norm": 0.16711494326591492,
      "learning_rate": 0.0001,
      "loss": 0.1786,
      "step": 3136
    },
    {
      "epoch": 4.704559088182363,
      "grad_norm": 0.15847627818584442,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 3137
    },
    {
      "epoch": 4.706058788242352,
      "grad_norm": 0.16994886100292206,
      "learning_rate": 0.0001,
      "loss": 0.1603,
      "step": 3138
    },
    {
      "epoch": 4.70755848830234,
      "grad_norm": 0.1384243369102478,
      "learning_rate": 0.0001,
      "loss": 0.1535,
      "step": 3139
    },
    {
      "epoch": 4.709058188362327,
      "grad_norm": 0.14541132748126984,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 3140
    },
    {
      "epoch": 4.710557888422316,
      "grad_norm": 0.15212228894233704,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 3141
    },
    {
      "epoch": 4.7120575884823035,
      "grad_norm": 0.14161835610866547,
      "learning_rate": 0.0001,
      "loss": 0.1494,
      "step": 3142
    },
    {
      "epoch": 4.713557288542291,
      "grad_norm": 0.1473998725414276,
      "learning_rate": 0.0001,
      "loss": 0.1564,
      "step": 3143
    },
    {
      "epoch": 4.71505698860228,
      "grad_norm": 0.15145562589168549,
      "learning_rate": 0.0001,
      "loss": 0.1544,
      "step": 3144
    },
    {
      "epoch": 4.716556688662267,
      "grad_norm": 0.1401311457157135,
      "learning_rate": 0.0001,
      "loss": 0.146,
      "step": 3145
    },
    {
      "epoch": 4.718056388722255,
      "grad_norm": 0.15877065062522888,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 3146
    },
    {
      "epoch": 4.719556088782244,
      "grad_norm": 0.19074469804763794,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 3147
    },
    {
      "epoch": 4.721055788842231,
      "grad_norm": 0.15117226541042328,
      "learning_rate": 0.0001,
      "loss": 0.1461,
      "step": 3148
    },
    {
      "epoch": 4.72255548890222,
      "grad_norm": 0.147060364484787,
      "learning_rate": 0.0001,
      "loss": 0.1418,
      "step": 3149
    },
    {
      "epoch": 4.7240551889622076,
      "grad_norm": 0.17110010981559753,
      "learning_rate": 0.0001,
      "loss": 0.1668,
      "step": 3150
    },
    {
      "epoch": 4.725554889022195,
      "grad_norm": 0.25395190715789795,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 3151
    },
    {
      "epoch": 4.727054589082184,
      "grad_norm": 0.15994076430797577,
      "learning_rate": 0.0001,
      "loss": 0.1543,
      "step": 3152
    },
    {
      "epoch": 4.7285542891421715,
      "grad_norm": 0.14508704841136932,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 3153
    },
    {
      "epoch": 4.73005398920216,
      "grad_norm": 0.1422770768404007,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3154
    },
    {
      "epoch": 4.731553689262148,
      "grad_norm": 0.17766015231609344,
      "learning_rate": 0.0001,
      "loss": 0.1702,
      "step": 3155
    },
    {
      "epoch": 4.733053389322135,
      "grad_norm": 0.15045227110385895,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 3156
    },
    {
      "epoch": 4.734553089382124,
      "grad_norm": 0.1609361320734024,
      "learning_rate": 0.0001,
      "loss": 0.1695,
      "step": 3157
    },
    {
      "epoch": 4.736052789442112,
      "grad_norm": 0.12747441232204437,
      "learning_rate": 0.0001,
      "loss": 0.1402,
      "step": 3158
    },
    {
      "epoch": 4.737552489502099,
      "grad_norm": 0.13861261308193207,
      "learning_rate": 0.0001,
      "loss": 0.1495,
      "step": 3159
    },
    {
      "epoch": 4.739052189562088,
      "grad_norm": 0.18807311356067657,
      "learning_rate": 0.0001,
      "loss": 0.163,
      "step": 3160
    },
    {
      "epoch": 4.7405518896220755,
      "grad_norm": 0.14656178653240204,
      "learning_rate": 0.0001,
      "loss": 0.146,
      "step": 3161
    },
    {
      "epoch": 4.742051589682063,
      "grad_norm": 0.13712607324123383,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 3162
    },
    {
      "epoch": 4.743551289742052,
      "grad_norm": 0.15472570061683655,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 3163
    },
    {
      "epoch": 4.745050989802039,
      "grad_norm": 0.1374138742685318,
      "learning_rate": 0.0001,
      "loss": 0.151,
      "step": 3164
    },
    {
      "epoch": 4.746550689862028,
      "grad_norm": 0.1546667218208313,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 3165
    },
    {
      "epoch": 4.748050389922016,
      "grad_norm": 0.15659140050411224,
      "learning_rate": 0.0001,
      "loss": 0.1691,
      "step": 3166
    },
    {
      "epoch": 4.749550089982003,
      "grad_norm": 0.15351180732250214,
      "learning_rate": 0.0001,
      "loss": 0.1625,
      "step": 3167
    },
    {
      "epoch": 4.751049790041992,
      "grad_norm": 0.13849982619285583,
      "learning_rate": 0.0001,
      "loss": 0.1474,
      "step": 3168
    },
    {
      "epoch": 4.75254949010198,
      "grad_norm": 0.14369283616542816,
      "learning_rate": 0.0001,
      "loss": 0.1664,
      "step": 3169
    },
    {
      "epoch": 4.754049190161967,
      "grad_norm": 0.1889357715845108,
      "learning_rate": 0.0001,
      "loss": 0.1711,
      "step": 3170
    },
    {
      "epoch": 4.755548890221956,
      "grad_norm": 0.16290383040905,
      "learning_rate": 0.0001,
      "loss": 0.1425,
      "step": 3171
    },
    {
      "epoch": 4.7570485902819435,
      "grad_norm": 0.15189267694950104,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3172
    },
    {
      "epoch": 4.758548290341931,
      "grad_norm": 0.1579226553440094,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 3173
    },
    {
      "epoch": 4.76004799040192,
      "grad_norm": 0.1279384046792984,
      "learning_rate": 0.0001,
      "loss": 0.1305,
      "step": 3174
    },
    {
      "epoch": 4.761547690461907,
      "grad_norm": 0.1518929898738861,
      "learning_rate": 0.0001,
      "loss": 0.1354,
      "step": 3175
    },
    {
      "epoch": 4.763047390521896,
      "grad_norm": 0.15884140133857727,
      "learning_rate": 0.0001,
      "loss": 0.1429,
      "step": 3176
    },
    {
      "epoch": 4.764547090581884,
      "grad_norm": 0.15938715636730194,
      "learning_rate": 0.0001,
      "loss": 0.164,
      "step": 3177
    },
    {
      "epoch": 4.766046790641871,
      "grad_norm": 0.17287157475948334,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 3178
    },
    {
      "epoch": 4.76754649070186,
      "grad_norm": 0.1416529268026352,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 3179
    },
    {
      "epoch": 4.7690461907618475,
      "grad_norm": 0.16394910216331482,
      "learning_rate": 0.0001,
      "loss": 0.1618,
      "step": 3180
    },
    {
      "epoch": 4.770545890821836,
      "grad_norm": 0.141708642244339,
      "learning_rate": 0.0001,
      "loss": 0.1426,
      "step": 3181
    },
    {
      "epoch": 4.772045590881824,
      "grad_norm": 0.14809435606002808,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 3182
    },
    {
      "epoch": 4.7735452909418115,
      "grad_norm": 0.23138613998889923,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 3183
    },
    {
      "epoch": 4.7750449910018,
      "grad_norm": 0.15539510548114777,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 3184
    },
    {
      "epoch": 4.776544691061788,
      "grad_norm": 0.16827313601970673,
      "learning_rate": 0.0001,
      "loss": 0.1666,
      "step": 3185
    },
    {
      "epoch": 4.778044391121775,
      "grad_norm": 0.1553652137517929,
      "learning_rate": 0.0001,
      "loss": 0.1742,
      "step": 3186
    },
    {
      "epoch": 4.779544091181764,
      "grad_norm": 0.20190094411373138,
      "learning_rate": 0.0001,
      "loss": 0.1629,
      "step": 3187
    },
    {
      "epoch": 4.781043791241752,
      "grad_norm": 0.13965560495853424,
      "learning_rate": 0.0001,
      "loss": 0.1526,
      "step": 3188
    },
    {
      "epoch": 4.782543491301739,
      "grad_norm": 0.20852987468242645,
      "learning_rate": 0.0001,
      "loss": 0.1507,
      "step": 3189
    },
    {
      "epoch": 4.784043191361728,
      "grad_norm": 0.14618925750255585,
      "learning_rate": 0.0001,
      "loss": 0.1463,
      "step": 3190
    },
    {
      "epoch": 4.7855428914217155,
      "grad_norm": 0.17748351395130157,
      "learning_rate": 0.0001,
      "loss": 0.1739,
      "step": 3191
    },
    {
      "epoch": 4.787042591481704,
      "grad_norm": 0.13622647523880005,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 3192
    },
    {
      "epoch": 4.788542291541692,
      "grad_norm": 0.14643298089504242,
      "learning_rate": 0.0001,
      "loss": 0.1729,
      "step": 3193
    },
    {
      "epoch": 4.790041991601679,
      "grad_norm": 0.14723451435565948,
      "learning_rate": 0.0001,
      "loss": 0.1531,
      "step": 3194
    },
    {
      "epoch": 4.791541691661668,
      "grad_norm": 0.13943694531917572,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 3195
    },
    {
      "epoch": 4.793041391721656,
      "grad_norm": 0.15290668606758118,
      "learning_rate": 0.0001,
      "loss": 0.1603,
      "step": 3196
    },
    {
      "epoch": 4.794541091781643,
      "grad_norm": 0.1830834001302719,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 3197
    },
    {
      "epoch": 4.796040791841632,
      "grad_norm": 0.16462379693984985,
      "learning_rate": 0.0001,
      "loss": 0.1773,
      "step": 3198
    },
    {
      "epoch": 4.79754049190162,
      "grad_norm": 0.1681205928325653,
      "learning_rate": 0.0001,
      "loss": 0.1652,
      "step": 3199
    },
    {
      "epoch": 4.799040191961607,
      "grad_norm": 0.22602203488349915,
      "learning_rate": 0.0001,
      "loss": 0.1653,
      "step": 3200
    },
    {
      "epoch": 4.800539892021596,
      "grad_norm": 0.1802610158920288,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 3201
    },
    {
      "epoch": 4.8020395920815835,
      "grad_norm": 0.16950218379497528,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 3202
    },
    {
      "epoch": 4.803539292141572,
      "grad_norm": 0.151738703250885,
      "learning_rate": 0.0001,
      "loss": 0.1429,
      "step": 3203
    },
    {
      "epoch": 4.80503899220156,
      "grad_norm": 0.1604159027338028,
      "learning_rate": 0.0001,
      "loss": 0.1464,
      "step": 3204
    },
    {
      "epoch": 4.806538692261547,
      "grad_norm": 0.14321579039096832,
      "learning_rate": 0.0001,
      "loss": 0.1429,
      "step": 3205
    },
    {
      "epoch": 4.808038392321536,
      "grad_norm": 0.17185693979263306,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 3206
    },
    {
      "epoch": 4.809538092381524,
      "grad_norm": 0.17743733525276184,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 3207
    },
    {
      "epoch": 4.811037792441512,
      "grad_norm": 0.12980985641479492,
      "learning_rate": 0.0001,
      "loss": 0.1399,
      "step": 3208
    },
    {
      "epoch": 4.8125374925015,
      "grad_norm": 0.15435874462127686,
      "learning_rate": 0.0001,
      "loss": 0.151,
      "step": 3209
    },
    {
      "epoch": 4.8140371925614875,
      "grad_norm": 0.16381950676441193,
      "learning_rate": 0.0001,
      "loss": 0.1647,
      "step": 3210
    },
    {
      "epoch": 4.815536892621475,
      "grad_norm": 0.12704670429229736,
      "learning_rate": 0.0001,
      "loss": 0.1435,
      "step": 3211
    },
    {
      "epoch": 4.817036592681464,
      "grad_norm": 0.14958471059799194,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 3212
    },
    {
      "epoch": 4.8185362927414515,
      "grad_norm": 0.5379211902618408,
      "learning_rate": 0.0001,
      "loss": 0.1593,
      "step": 3213
    },
    {
      "epoch": 4.82003599280144,
      "grad_norm": 0.1588650792837143,
      "learning_rate": 0.0001,
      "loss": 0.1619,
      "step": 3214
    },
    {
      "epoch": 4.821535692861428,
      "grad_norm": 0.457317054271698,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 3215
    },
    {
      "epoch": 4.823035392921415,
      "grad_norm": 0.15820395946502686,
      "learning_rate": 0.0001,
      "loss": 0.1683,
      "step": 3216
    },
    {
      "epoch": 4.824535092981404,
      "grad_norm": 0.17328646779060364,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3217
    },
    {
      "epoch": 4.826034793041392,
      "grad_norm": 0.15645386278629303,
      "learning_rate": 0.0001,
      "loss": 0.1547,
      "step": 3218
    },
    {
      "epoch": 4.82753449310138,
      "grad_norm": 0.13296952843666077,
      "learning_rate": 0.0001,
      "loss": 0.1353,
      "step": 3219
    },
    {
      "epoch": 4.829034193161368,
      "grad_norm": 0.1692548245191574,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 3220
    },
    {
      "epoch": 4.8305338932213555,
      "grad_norm": 0.14361779391765594,
      "learning_rate": 0.0001,
      "loss": 0.1336,
      "step": 3221
    },
    {
      "epoch": 4.832033593281344,
      "grad_norm": 0.16409805417060852,
      "learning_rate": 0.0001,
      "loss": 0.1608,
      "step": 3222
    },
    {
      "epoch": 4.833533293341332,
      "grad_norm": 0.1515132486820221,
      "learning_rate": 0.0001,
      "loss": 0.1535,
      "step": 3223
    },
    {
      "epoch": 4.835032993401319,
      "grad_norm": 0.15333674848079681,
      "learning_rate": 0.0001,
      "loss": 0.1407,
      "step": 3224
    },
    {
      "epoch": 4.836532693461308,
      "grad_norm": 0.1675720363855362,
      "learning_rate": 0.0001,
      "loss": 0.1471,
      "step": 3225
    },
    {
      "epoch": 4.838032393521296,
      "grad_norm": 0.168384850025177,
      "learning_rate": 0.0001,
      "loss": 0.1723,
      "step": 3226
    },
    {
      "epoch": 4.839532093581283,
      "grad_norm": 0.15703637897968292,
      "learning_rate": 0.0001,
      "loss": 0.1619,
      "step": 3227
    },
    {
      "epoch": 4.841031793641272,
      "grad_norm": 0.15129722654819489,
      "learning_rate": 0.0001,
      "loss": 0.1421,
      "step": 3228
    },
    {
      "epoch": 4.84253149370126,
      "grad_norm": 0.2026527225971222,
      "learning_rate": 0.0001,
      "loss": 0.1607,
      "step": 3229
    },
    {
      "epoch": 4.844031193761248,
      "grad_norm": 0.1731138527393341,
      "learning_rate": 0.0001,
      "loss": 0.1575,
      "step": 3230
    },
    {
      "epoch": 4.845530893821236,
      "grad_norm": 0.1519136130809784,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 3231
    },
    {
      "epoch": 4.8470305938812235,
      "grad_norm": 0.1480361670255661,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 3232
    },
    {
      "epoch": 4.848530293941212,
      "grad_norm": 0.15719355642795563,
      "learning_rate": 0.0001,
      "loss": 0.1648,
      "step": 3233
    },
    {
      "epoch": 4.8500299940012,
      "grad_norm": 0.15139786899089813,
      "learning_rate": 0.0001,
      "loss": 0.1349,
      "step": 3234
    },
    {
      "epoch": 4.851529694061187,
      "grad_norm": 0.15760685503482819,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 3235
    },
    {
      "epoch": 4.853029394121176,
      "grad_norm": 0.14458155632019043,
      "learning_rate": 0.0001,
      "loss": 0.1574,
      "step": 3236
    },
    {
      "epoch": 4.854529094181164,
      "grad_norm": 0.14197677373886108,
      "learning_rate": 0.0001,
      "loss": 0.1607,
      "step": 3237
    },
    {
      "epoch": 4.856028794241151,
      "grad_norm": 0.11793941259384155,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 3238
    },
    {
      "epoch": 4.85752849430114,
      "grad_norm": 0.16046589612960815,
      "learning_rate": 0.0001,
      "loss": 0.187,
      "step": 3239
    },
    {
      "epoch": 4.8590281943611275,
      "grad_norm": 0.13176095485687256,
      "learning_rate": 0.0001,
      "loss": 0.1395,
      "step": 3240
    },
    {
      "epoch": 4.860527894421116,
      "grad_norm": 0.15586592257022858,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 3241
    },
    {
      "epoch": 4.862027594481104,
      "grad_norm": 0.14162993431091309,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 3242
    },
    {
      "epoch": 4.8635272945410915,
      "grad_norm": 0.22565922141075134,
      "learning_rate": 0.0001,
      "loss": 0.1446,
      "step": 3243
    },
    {
      "epoch": 4.86502699460108,
      "grad_norm": 0.159735769033432,
      "learning_rate": 0.0001,
      "loss": 0.1673,
      "step": 3244
    },
    {
      "epoch": 4.866526694661068,
      "grad_norm": 0.15514446794986725,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 3245
    },
    {
      "epoch": 4.868026394721056,
      "grad_norm": 0.14058780670166016,
      "learning_rate": 0.0001,
      "loss": 0.1416,
      "step": 3246
    },
    {
      "epoch": 4.869526094781044,
      "grad_norm": 0.15605317056179047,
      "learning_rate": 0.0001,
      "loss": 0.162,
      "step": 3247
    },
    {
      "epoch": 4.871025794841032,
      "grad_norm": 0.14929622411727905,
      "learning_rate": 0.0001,
      "loss": 0.1594,
      "step": 3248
    },
    {
      "epoch": 4.87252549490102,
      "grad_norm": 0.15625199675559998,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 3249
    },
    {
      "epoch": 4.874025194961008,
      "grad_norm": 0.14920677244663239,
      "learning_rate": 0.0001,
      "loss": 0.1458,
      "step": 3250
    },
    {
      "epoch": 4.8755248950209955,
      "grad_norm": 0.15663114190101624,
      "learning_rate": 0.0001,
      "loss": 0.1386,
      "step": 3251
    },
    {
      "epoch": 4.877024595080984,
      "grad_norm": 0.16302825510501862,
      "learning_rate": 0.0001,
      "loss": 0.1595,
      "step": 3252
    },
    {
      "epoch": 4.878524295140972,
      "grad_norm": 0.17228153347969055,
      "learning_rate": 0.0001,
      "loss": 0.1562,
      "step": 3253
    },
    {
      "epoch": 4.880023995200959,
      "grad_norm": 0.21350730955600739,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 3254
    },
    {
      "epoch": 4.881523695260948,
      "grad_norm": 0.1505534052848816,
      "learning_rate": 0.0001,
      "loss": 0.1686,
      "step": 3255
    },
    {
      "epoch": 4.883023395320936,
      "grad_norm": 0.19540369510650635,
      "learning_rate": 0.0001,
      "loss": 0.149,
      "step": 3256
    },
    {
      "epoch": 4.884523095380924,
      "grad_norm": 0.12638936936855316,
      "learning_rate": 0.0001,
      "loss": 0.1518,
      "step": 3257
    },
    {
      "epoch": 4.886022795440912,
      "grad_norm": 0.13523291051387787,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 3258
    },
    {
      "epoch": 4.8875224955009,
      "grad_norm": 0.1443471610546112,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 3259
    },
    {
      "epoch": 4.889022195560888,
      "grad_norm": 0.12970323860645294,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 3260
    },
    {
      "epoch": 4.890521895620876,
      "grad_norm": 0.14492139220237732,
      "learning_rate": 0.0001,
      "loss": 0.1601,
      "step": 3261
    },
    {
      "epoch": 4.8920215956808635,
      "grad_norm": 0.1403902769088745,
      "learning_rate": 0.0001,
      "loss": 0.1608,
      "step": 3262
    },
    {
      "epoch": 4.893521295740852,
      "grad_norm": 0.3204649090766907,
      "learning_rate": 0.0001,
      "loss": 0.1356,
      "step": 3263
    },
    {
      "epoch": 4.89502099580084,
      "grad_norm": 0.15048189461231232,
      "learning_rate": 0.0001,
      "loss": 0.14,
      "step": 3264
    },
    {
      "epoch": 4.896520695860827,
      "grad_norm": 0.19689534604549408,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 3265
    },
    {
      "epoch": 4.898020395920816,
      "grad_norm": 0.16870243847370148,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 3266
    },
    {
      "epoch": 4.899520095980804,
      "grad_norm": 0.1889859437942505,
      "learning_rate": 0.0001,
      "loss": 0.1673,
      "step": 3267
    },
    {
      "epoch": 4.901019796040792,
      "grad_norm": 0.23295268416404724,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 3268
    },
    {
      "epoch": 4.90251949610078,
      "grad_norm": 0.13042280077934265,
      "learning_rate": 0.0001,
      "loss": 0.1376,
      "step": 3269
    },
    {
      "epoch": 4.9040191961607675,
      "grad_norm": 0.16041812300682068,
      "learning_rate": 0.0001,
      "loss": 0.1692,
      "step": 3270
    },
    {
      "epoch": 4.905518896220756,
      "grad_norm": 0.1994762122631073,
      "learning_rate": 0.0001,
      "loss": 0.1719,
      "step": 3271
    },
    {
      "epoch": 4.907018596280744,
      "grad_norm": 0.19813236594200134,
      "learning_rate": 0.0001,
      "loss": 0.1729,
      "step": 3272
    },
    {
      "epoch": 4.908518296340732,
      "grad_norm": 0.15160450339317322,
      "learning_rate": 0.0001,
      "loss": 0.1467,
      "step": 3273
    },
    {
      "epoch": 4.91001799640072,
      "grad_norm": 0.14284749329090118,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 3274
    },
    {
      "epoch": 4.911517696460708,
      "grad_norm": 0.15420888364315033,
      "learning_rate": 0.0001,
      "loss": 0.1576,
      "step": 3275
    },
    {
      "epoch": 4.913017396520696,
      "grad_norm": 0.15809127688407898,
      "learning_rate": 0.0001,
      "loss": 0.1547,
      "step": 3276
    },
    {
      "epoch": 4.914517096580684,
      "grad_norm": 0.14191888272762299,
      "learning_rate": 0.0001,
      "loss": 0.1468,
      "step": 3277
    },
    {
      "epoch": 4.916016796640672,
      "grad_norm": 0.15829594433307648,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 3278
    },
    {
      "epoch": 4.91751649670066,
      "grad_norm": 0.12841641902923584,
      "learning_rate": 0.0001,
      "loss": 0.1476,
      "step": 3279
    },
    {
      "epoch": 4.919016196760648,
      "grad_norm": 0.3242796063423157,
      "learning_rate": 0.0001,
      "loss": 0.1597,
      "step": 3280
    },
    {
      "epoch": 4.9205158968206355,
      "grad_norm": 0.16516438126564026,
      "learning_rate": 0.0001,
      "loss": 0.1672,
      "step": 3281
    },
    {
      "epoch": 4.922015596880624,
      "grad_norm": 0.15022408962249756,
      "learning_rate": 0.0001,
      "loss": 0.1695,
      "step": 3282
    },
    {
      "epoch": 4.923515296940612,
      "grad_norm": 0.13742387294769287,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 3283
    },
    {
      "epoch": 4.9250149970006,
      "grad_norm": 0.1618332713842392,
      "learning_rate": 0.0001,
      "loss": 0.1441,
      "step": 3284
    },
    {
      "epoch": 4.926514697060588,
      "grad_norm": 0.1502920538187027,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 3285
    },
    {
      "epoch": 4.928014397120576,
      "grad_norm": 0.1464698761701584,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 3286
    },
    {
      "epoch": 4.929514097180564,
      "grad_norm": 0.18026037514209747,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 3287
    },
    {
      "epoch": 4.931013797240552,
      "grad_norm": 0.172957181930542,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 3288
    },
    {
      "epoch": 4.93251349730054,
      "grad_norm": 0.14896854758262634,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 3289
    },
    {
      "epoch": 4.934013197360528,
      "grad_norm": 0.18101362884044647,
      "learning_rate": 0.0001,
      "loss": 0.1435,
      "step": 3290
    },
    {
      "epoch": 4.935512897420516,
      "grad_norm": 0.16285070776939392,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 3291
    },
    {
      "epoch": 4.9370125974805035,
      "grad_norm": 0.15512657165527344,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 3292
    },
    {
      "epoch": 4.938512297540492,
      "grad_norm": 0.14376398921012878,
      "learning_rate": 0.0001,
      "loss": 0.1708,
      "step": 3293
    },
    {
      "epoch": 4.94001199760048,
      "grad_norm": 0.15290558338165283,
      "learning_rate": 0.0001,
      "loss": 0.1713,
      "step": 3294
    },
    {
      "epoch": 4.941511697660468,
      "grad_norm": 0.1519830971956253,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3295
    },
    {
      "epoch": 4.943011397720456,
      "grad_norm": 0.15002408623695374,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 3296
    },
    {
      "epoch": 4.944511097780444,
      "grad_norm": 0.1321033239364624,
      "learning_rate": 0.0001,
      "loss": 0.1651,
      "step": 3297
    },
    {
      "epoch": 4.946010797840432,
      "grad_norm": 0.2185209095478058,
      "learning_rate": 0.0001,
      "loss": 0.1758,
      "step": 3298
    },
    {
      "epoch": 4.94751049790042,
      "grad_norm": 0.3316061198711395,
      "learning_rate": 0.0001,
      "loss": 0.1666,
      "step": 3299
    },
    {
      "epoch": 4.9490101979604075,
      "grad_norm": 0.14993761479854584,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 3300
    },
    {
      "epoch": 4.950509898020396,
      "grad_norm": 0.14648927748203278,
      "learning_rate": 0.0001,
      "loss": 0.1646,
      "step": 3301
    },
    {
      "epoch": 4.952009598080384,
      "grad_norm": 0.15449802577495575,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 3302
    },
    {
      "epoch": 4.953509298140371,
      "grad_norm": 0.16252626478672028,
      "learning_rate": 0.0001,
      "loss": 0.1757,
      "step": 3303
    },
    {
      "epoch": 4.95500899820036,
      "grad_norm": 0.1375988870859146,
      "learning_rate": 0.0001,
      "loss": 0.1489,
      "step": 3304
    },
    {
      "epoch": 4.956508698260348,
      "grad_norm": 0.1337682455778122,
      "learning_rate": 0.0001,
      "loss": 0.1382,
      "step": 3305
    },
    {
      "epoch": 4.958008398320336,
      "grad_norm": 0.16609685122966766,
      "learning_rate": 0.0001,
      "loss": 0.1698,
      "step": 3306
    },
    {
      "epoch": 4.959508098380324,
      "grad_norm": 0.16350878775119781,
      "learning_rate": 0.0001,
      "loss": 0.1621,
      "step": 3307
    },
    {
      "epoch": 4.961007798440312,
      "grad_norm": 0.14568141102790833,
      "learning_rate": 0.0001,
      "loss": 0.1688,
      "step": 3308
    },
    {
      "epoch": 4.9625074985003,
      "grad_norm": 0.13529714941978455,
      "learning_rate": 0.0001,
      "loss": 0.1469,
      "step": 3309
    },
    {
      "epoch": 4.964007198560288,
      "grad_norm": 0.1603838950395584,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 3310
    },
    {
      "epoch": 4.965506898620276,
      "grad_norm": 0.17702800035476685,
      "learning_rate": 0.0001,
      "loss": 0.1641,
      "step": 3311
    },
    {
      "epoch": 4.967006598680264,
      "grad_norm": 0.14424516260623932,
      "learning_rate": 0.0001,
      "loss": 0.1615,
      "step": 3312
    },
    {
      "epoch": 4.968506298740252,
      "grad_norm": 0.15445032715797424,
      "learning_rate": 0.0001,
      "loss": 0.1625,
      "step": 3313
    },
    {
      "epoch": 4.97000599880024,
      "grad_norm": 0.14754416048526764,
      "learning_rate": 0.0001,
      "loss": 0.1685,
      "step": 3314
    },
    {
      "epoch": 4.971505698860228,
      "grad_norm": 0.17477737367153168,
      "learning_rate": 0.0001,
      "loss": 0.1661,
      "step": 3315
    },
    {
      "epoch": 4.973005398920216,
      "grad_norm": 0.1480788141489029,
      "learning_rate": 0.0001,
      "loss": 0.1486,
      "step": 3316
    },
    {
      "epoch": 4.974505098980204,
      "grad_norm": 0.15054917335510254,
      "learning_rate": 0.0001,
      "loss": 0.1556,
      "step": 3317
    },
    {
      "epoch": 4.976004799040192,
      "grad_norm": 0.16364526748657227,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3318
    },
    {
      "epoch": 4.97750449910018,
      "grad_norm": 0.14742936193943024,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 3319
    },
    {
      "epoch": 4.979004199160168,
      "grad_norm": 0.1669410914182663,
      "learning_rate": 0.0001,
      "loss": 0.1317,
      "step": 3320
    },
    {
      "epoch": 4.980503899220156,
      "grad_norm": 0.16326530277729034,
      "learning_rate": 0.0001,
      "loss": 0.157,
      "step": 3321
    },
    {
      "epoch": 4.982003599280144,
      "grad_norm": 0.1381053626537323,
      "learning_rate": 0.0001,
      "loss": 0.1528,
      "step": 3322
    },
    {
      "epoch": 4.983503299340132,
      "grad_norm": 0.13654454052448273,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 3323
    },
    {
      "epoch": 4.98500299940012,
      "grad_norm": 0.16536614298820496,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 3324
    },
    {
      "epoch": 4.986502699460108,
      "grad_norm": 0.15977370738983154,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 3325
    },
    {
      "epoch": 4.988002399520096,
      "grad_norm": 0.18747861683368683,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 3326
    },
    {
      "epoch": 4.989502099580084,
      "grad_norm": 0.1598145067691803,
      "learning_rate": 0.0001,
      "loss": 0.1405,
      "step": 3327
    },
    {
      "epoch": 4.991001799640072,
      "grad_norm": 0.14504700899124146,
      "learning_rate": 0.0001,
      "loss": 0.1438,
      "step": 3328
    },
    {
      "epoch": 4.99250149970006,
      "grad_norm": 0.14818109571933746,
      "learning_rate": 0.0001,
      "loss": 0.1542,
      "step": 3329
    },
    {
      "epoch": 4.9940011997600475,
      "grad_norm": 0.1522258222103119,
      "learning_rate": 0.0001,
      "loss": 0.1605,
      "step": 3330
    },
    {
      "epoch": 4.995500899820036,
      "grad_norm": 0.16254447400569916,
      "learning_rate": 0.0001,
      "loss": 0.1624,
      "step": 3331
    },
    {
      "epoch": 4.997000599880024,
      "grad_norm": 0.17613552510738373,
      "learning_rate": 0.0001,
      "loss": 0.1818,
      "step": 3332
    },
    {
      "epoch": 4.998500299940012,
      "grad_norm": 0.17977575957775116,
      "learning_rate": 0.0001,
      "loss": 0.1659,
      "step": 3333
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.13170847296714783,
      "learning_rate": 0.0001,
      "loss": 0.1553,
      "step": 3334
    },
    {
      "epoch": 5.001499700059988,
      "grad_norm": 0.13578630983829498,
      "learning_rate": 0.0001,
      "loss": 0.1355,
      "step": 3335
    },
    {
      "epoch": 5.002999400119976,
      "grad_norm": 0.13976241648197174,
      "learning_rate": 0.0001,
      "loss": 0.13,
      "step": 3336
    },
    {
      "epoch": 5.004499100179964,
      "grad_norm": 0.16292700171470642,
      "learning_rate": 0.0001,
      "loss": 0.1626,
      "step": 3337
    },
    {
      "epoch": 5.005998800239952,
      "grad_norm": 0.14338970184326172,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3338
    },
    {
      "epoch": 5.00749850029994,
      "grad_norm": 0.1355133354663849,
      "learning_rate": 0.0001,
      "loss": 0.1292,
      "step": 3339
    },
    {
      "epoch": 5.008998200359928,
      "grad_norm": 0.14443440735340118,
      "learning_rate": 0.0001,
      "loss": 0.1437,
      "step": 3340
    },
    {
      "epoch": 5.010497900419916,
      "grad_norm": 0.19545234739780426,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 3341
    },
    {
      "epoch": 5.011997600479904,
      "grad_norm": 0.17645175755023956,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 3342
    },
    {
      "epoch": 5.013497300539892,
      "grad_norm": 0.18413354456424713,
      "learning_rate": 0.0001,
      "loss": 0.1418,
      "step": 3343
    },
    {
      "epoch": 5.01499700059988,
      "grad_norm": 0.17385229468345642,
      "learning_rate": 0.0001,
      "loss": 0.1488,
      "step": 3344
    },
    {
      "epoch": 5.016496700659868,
      "grad_norm": 0.1732284128665924,
      "learning_rate": 0.0001,
      "loss": 0.1369,
      "step": 3345
    },
    {
      "epoch": 5.017996400719856,
      "grad_norm": 0.21774081885814667,
      "learning_rate": 0.0001,
      "loss": 0.1398,
      "step": 3346
    },
    {
      "epoch": 5.019496100779844,
      "grad_norm": 0.22100771963596344,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 3347
    },
    {
      "epoch": 5.020995800839832,
      "grad_norm": 0.2140345722436905,
      "learning_rate": 0.0001,
      "loss": 0.1452,
      "step": 3348
    },
    {
      "epoch": 5.02249550089982,
      "grad_norm": 0.1817188560962677,
      "learning_rate": 0.0001,
      "loss": 0.1423,
      "step": 3349
    },
    {
      "epoch": 5.023995200959808,
      "grad_norm": 0.18373139202594757,
      "learning_rate": 0.0001,
      "loss": 0.1339,
      "step": 3350
    },
    {
      "epoch": 5.025494901019796,
      "grad_norm": 0.20134291052818298,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 3351
    },
    {
      "epoch": 5.026994601079784,
      "grad_norm": 0.15198136866092682,
      "learning_rate": 0.0001,
      "loss": 0.1192,
      "step": 3352
    },
    {
      "epoch": 5.028494301139772,
      "grad_norm": 0.35041722655296326,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 3353
    },
    {
      "epoch": 5.02999400119976,
      "grad_norm": 0.17894916236400604,
      "learning_rate": 0.0001,
      "loss": 0.1522,
      "step": 3354
    },
    {
      "epoch": 5.031493701259748,
      "grad_norm": 0.14935846626758575,
      "learning_rate": 0.0001,
      "loss": 0.1341,
      "step": 3355
    },
    {
      "epoch": 5.032993401319736,
      "grad_norm": 0.19495049118995667,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 3356
    },
    {
      "epoch": 5.034493101379724,
      "grad_norm": 0.1735064685344696,
      "learning_rate": 0.0001,
      "loss": 0.1386,
      "step": 3357
    },
    {
      "epoch": 5.035992801439712,
      "grad_norm": 0.14017438888549805,
      "learning_rate": 0.0001,
      "loss": 0.1348,
      "step": 3358
    },
    {
      "epoch": 5.0374925014997,
      "grad_norm": 0.1602664440870285,
      "learning_rate": 0.0001,
      "loss": 0.1312,
      "step": 3359
    },
    {
      "epoch": 5.038992201559688,
      "grad_norm": 0.2505740225315094,
      "learning_rate": 0.0001,
      "loss": 0.139,
      "step": 3360
    },
    {
      "epoch": 5.040491901619676,
      "grad_norm": 0.17725816369056702,
      "learning_rate": 0.0001,
      "loss": 0.1365,
      "step": 3361
    },
    {
      "epoch": 5.041991601679664,
      "grad_norm": 0.16400721669197083,
      "learning_rate": 0.0001,
      "loss": 0.1374,
      "step": 3362
    },
    {
      "epoch": 5.043491301739652,
      "grad_norm": 0.16444538533687592,
      "learning_rate": 0.0001,
      "loss": 0.1288,
      "step": 3363
    },
    {
      "epoch": 5.04499100179964,
      "grad_norm": 0.17664454877376556,
      "learning_rate": 0.0001,
      "loss": 0.1376,
      "step": 3364
    },
    {
      "epoch": 5.046490701859628,
      "grad_norm": 0.20829491317272186,
      "learning_rate": 0.0001,
      "loss": 0.1429,
      "step": 3365
    },
    {
      "epoch": 5.047990401919616,
      "grad_norm": 0.19153055548667908,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3366
    },
    {
      "epoch": 5.049490101979604,
      "grad_norm": 0.1788879930973053,
      "learning_rate": 0.0001,
      "loss": 0.1523,
      "step": 3367
    },
    {
      "epoch": 5.0509898020395925,
      "grad_norm": 0.1693619042634964,
      "learning_rate": 0.0001,
      "loss": 0.1348,
      "step": 3368
    },
    {
      "epoch": 5.05248950209958,
      "grad_norm": 0.18156741559505463,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 3369
    },
    {
      "epoch": 5.053989202159568,
      "grad_norm": 0.18353819847106934,
      "learning_rate": 0.0001,
      "loss": 0.1478,
      "step": 3370
    },
    {
      "epoch": 5.055488902219556,
      "grad_norm": 0.17569053173065186,
      "learning_rate": 0.0001,
      "loss": 0.1332,
      "step": 3371
    },
    {
      "epoch": 5.056988602279544,
      "grad_norm": 0.19215020537376404,
      "learning_rate": 0.0001,
      "loss": 0.1527,
      "step": 3372
    },
    {
      "epoch": 5.058488302339532,
      "grad_norm": 0.18234620988368988,
      "learning_rate": 0.0001,
      "loss": 0.1413,
      "step": 3373
    },
    {
      "epoch": 5.05998800239952,
      "grad_norm": 0.19122813642024994,
      "learning_rate": 0.0001,
      "loss": 0.1324,
      "step": 3374
    },
    {
      "epoch": 5.061487702459508,
      "grad_norm": 0.19011588394641876,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3375
    },
    {
      "epoch": 5.0629874025194965,
      "grad_norm": 0.16640804708003998,
      "learning_rate": 0.0001,
      "loss": 0.1424,
      "step": 3376
    },
    {
      "epoch": 5.064487102579484,
      "grad_norm": 0.17690536379814148,
      "learning_rate": 0.0001,
      "loss": 0.1364,
      "step": 3377
    },
    {
      "epoch": 5.065986802639472,
      "grad_norm": 0.16556507349014282,
      "learning_rate": 0.0001,
      "loss": 0.145,
      "step": 3378
    },
    {
      "epoch": 5.06748650269946,
      "grad_norm": 0.18693426251411438,
      "learning_rate": 0.0001,
      "loss": 0.1379,
      "step": 3379
    },
    {
      "epoch": 5.068986202759448,
      "grad_norm": 0.16721175611019135,
      "learning_rate": 0.0001,
      "loss": 0.1382,
      "step": 3380
    },
    {
      "epoch": 5.070485902819436,
      "grad_norm": 0.17233310639858246,
      "learning_rate": 0.0001,
      "loss": 0.131,
      "step": 3381
    },
    {
      "epoch": 5.071985602879424,
      "grad_norm": 0.17942769825458527,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 3382
    },
    {
      "epoch": 5.073485302939412,
      "grad_norm": 0.16095539927482605,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 3383
    },
    {
      "epoch": 5.0749850029994,
      "grad_norm": 0.16774804890155792,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 3384
    },
    {
      "epoch": 5.076484703059388,
      "grad_norm": 0.1599048674106598,
      "learning_rate": 0.0001,
      "loss": 0.1453,
      "step": 3385
    },
    {
      "epoch": 5.077984403119376,
      "grad_norm": 0.16409455239772797,
      "learning_rate": 0.0001,
      "loss": 0.144,
      "step": 3386
    },
    {
      "epoch": 5.0794841031793645,
      "grad_norm": 0.14670774340629578,
      "learning_rate": 0.0001,
      "loss": 0.147,
      "step": 3387
    },
    {
      "epoch": 5.080983803239352,
      "grad_norm": 0.18839342892169952,
      "learning_rate": 0.0001,
      "loss": 0.1403,
      "step": 3388
    },
    {
      "epoch": 5.08248350329934,
      "grad_norm": 0.17009738087654114,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 3389
    },
    {
      "epoch": 5.083983203359328,
      "grad_norm": 0.19635383784770966,
      "learning_rate": 0.0001,
      "loss": 0.1464,
      "step": 3390
    },
    {
      "epoch": 5.085482903419316,
      "grad_norm": 0.1822420209646225,
      "learning_rate": 0.0001,
      "loss": 0.1439,
      "step": 3391
    },
    {
      "epoch": 5.086982603479304,
      "grad_norm": 0.19724251329898834,
      "learning_rate": 0.0001,
      "loss": 0.1446,
      "step": 3392
    },
    {
      "epoch": 5.088482303539292,
      "grad_norm": 0.15750652551651,
      "learning_rate": 0.0001,
      "loss": 0.1423,
      "step": 3393
    },
    {
      "epoch": 5.08998200359928,
      "grad_norm": 0.22067002952098846,
      "learning_rate": 0.0001,
      "loss": 0.1329,
      "step": 3394
    },
    {
      "epoch": 5.0914817036592686,
      "grad_norm": 0.6909373998641968,
      "learning_rate": 0.0001,
      "loss": 0.1373,
      "step": 3395
    },
    {
      "epoch": 5.092981403719256,
      "grad_norm": 0.17677468061447144,
      "learning_rate": 0.0001,
      "loss": 0.1435,
      "step": 3396
    },
    {
      "epoch": 5.094481103779244,
      "grad_norm": 0.14477266371250153,
      "learning_rate": 0.0001,
      "loss": 0.1247,
      "step": 3397
    },
    {
      "epoch": 5.0959808038392325,
      "grad_norm": 0.15921929478645325,
      "learning_rate": 0.0001,
      "loss": 0.1453,
      "step": 3398
    },
    {
      "epoch": 5.09748050389922,
      "grad_norm": 0.17966009676456451,
      "learning_rate": 0.0001,
      "loss": 0.1511,
      "step": 3399
    },
    {
      "epoch": 5.098980203959208,
      "grad_norm": 0.17273175716400146,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 3400
    },
    {
      "epoch": 5.100479904019196,
      "grad_norm": 0.2685517370700836,
      "learning_rate": 0.0001,
      "loss": 0.1477,
      "step": 3401
    },
    {
      "epoch": 5.101979604079184,
      "grad_norm": 0.16126315295696259,
      "learning_rate": 0.0001,
      "loss": 0.129,
      "step": 3402
    },
    {
      "epoch": 5.103479304139173,
      "grad_norm": 0.15065553784370422,
      "learning_rate": 0.0001,
      "loss": 0.1373,
      "step": 3403
    },
    {
      "epoch": 5.10497900419916,
      "grad_norm": 0.15130303800106049,
      "learning_rate": 0.0001,
      "loss": 0.1332,
      "step": 3404
    },
    {
      "epoch": 5.106478704259148,
      "grad_norm": 0.16329425573349,
      "learning_rate": 0.0001,
      "loss": 0.1335,
      "step": 3405
    },
    {
      "epoch": 5.1079784043191365,
      "grad_norm": 0.14024753868579865,
      "learning_rate": 0.0001,
      "loss": 0.1243,
      "step": 3406
    },
    {
      "epoch": 5.109478104379124,
      "grad_norm": 0.1813701093196869,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3407
    },
    {
      "epoch": 5.110977804439112,
      "grad_norm": 0.17850863933563232,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 3408
    },
    {
      "epoch": 5.1124775044991,
      "grad_norm": 0.17349642515182495,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 3409
    },
    {
      "epoch": 5.113977204559088,
      "grad_norm": 0.16900666058063507,
      "learning_rate": 0.0001,
      "loss": 0.1461,
      "step": 3410
    },
    {
      "epoch": 5.115476904619076,
      "grad_norm": 0.17487762868404388,
      "learning_rate": 0.0001,
      "loss": 0.1441,
      "step": 3411
    },
    {
      "epoch": 5.116976604679064,
      "grad_norm": 0.16624155640602112,
      "learning_rate": 0.0001,
      "loss": 0.1323,
      "step": 3412
    },
    {
      "epoch": 5.118476304739052,
      "grad_norm": 0.17841744422912598,
      "learning_rate": 0.0001,
      "loss": 0.144,
      "step": 3413
    },
    {
      "epoch": 5.119976004799041,
      "grad_norm": 0.1394824981689453,
      "learning_rate": 0.0001,
      "loss": 0.1269,
      "step": 3414
    },
    {
      "epoch": 5.121475704859028,
      "grad_norm": 0.16482383012771606,
      "learning_rate": 0.0001,
      "loss": 0.1388,
      "step": 3415
    },
    {
      "epoch": 5.122975404919016,
      "grad_norm": 0.15819625556468964,
      "learning_rate": 0.0001,
      "loss": 0.1455,
      "step": 3416
    },
    {
      "epoch": 5.1244751049790045,
      "grad_norm": 0.1756981611251831,
      "learning_rate": 0.0001,
      "loss": 0.1408,
      "step": 3417
    },
    {
      "epoch": 5.125974805038992,
      "grad_norm": 0.17596405744552612,
      "learning_rate": 0.0001,
      "loss": 0.1522,
      "step": 3418
    },
    {
      "epoch": 5.12747450509898,
      "grad_norm": 0.18064633011817932,
      "learning_rate": 0.0001,
      "loss": 0.1337,
      "step": 3419
    },
    {
      "epoch": 5.128974205158968,
      "grad_norm": 0.17817002534866333,
      "learning_rate": 0.0001,
      "loss": 0.1362,
      "step": 3420
    },
    {
      "epoch": 5.130473905218956,
      "grad_norm": 0.1873067319393158,
      "learning_rate": 0.0001,
      "loss": 0.1519,
      "step": 3421
    },
    {
      "epoch": 5.131973605278945,
      "grad_norm": 0.25549429655075073,
      "learning_rate": 0.0001,
      "loss": 0.1356,
      "step": 3422
    },
    {
      "epoch": 5.133473305338932,
      "grad_norm": 0.19482794404029846,
      "learning_rate": 0.0001,
      "loss": 0.138,
      "step": 3423
    },
    {
      "epoch": 5.13497300539892,
      "grad_norm": 0.26065176725387573,
      "learning_rate": 0.0001,
      "loss": 0.1311,
      "step": 3424
    },
    {
      "epoch": 5.1364727054589085,
      "grad_norm": 0.16415223479270935,
      "learning_rate": 0.0001,
      "loss": 0.1344,
      "step": 3425
    },
    {
      "epoch": 5.137972405518896,
      "grad_norm": 0.17337822914123535,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 3426
    },
    {
      "epoch": 5.139472105578884,
      "grad_norm": 0.18437735736370087,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3427
    },
    {
      "epoch": 5.1409718056388725,
      "grad_norm": 0.1679661124944687,
      "learning_rate": 0.0001,
      "loss": 0.1421,
      "step": 3428
    },
    {
      "epoch": 5.14247150569886,
      "grad_norm": 0.23042982816696167,
      "learning_rate": 0.0001,
      "loss": 0.1483,
      "step": 3429
    },
    {
      "epoch": 5.143971205758848,
      "grad_norm": 0.17648057639598846,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3430
    },
    {
      "epoch": 5.145470905818836,
      "grad_norm": 0.1931113600730896,
      "learning_rate": 0.0001,
      "loss": 0.1476,
      "step": 3431
    },
    {
      "epoch": 5.146970605878824,
      "grad_norm": 0.17464543879032135,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 3432
    },
    {
      "epoch": 5.148470305938813,
      "grad_norm": 0.14467236399650574,
      "learning_rate": 0.0001,
      "loss": 0.1374,
      "step": 3433
    },
    {
      "epoch": 5.1499700059988,
      "grad_norm": 0.14198750257492065,
      "learning_rate": 0.0001,
      "loss": 0.1401,
      "step": 3434
    },
    {
      "epoch": 5.151469706058788,
      "grad_norm": 0.17440298199653625,
      "learning_rate": 0.0001,
      "loss": 0.1451,
      "step": 3435
    },
    {
      "epoch": 5.1529694061187765,
      "grad_norm": 0.17852076888084412,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 3436
    },
    {
      "epoch": 5.154469106178764,
      "grad_norm": 0.1812320351600647,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 3437
    },
    {
      "epoch": 5.155968806238752,
      "grad_norm": 0.1790408492088318,
      "learning_rate": 0.0001,
      "loss": 0.1402,
      "step": 3438
    },
    {
      "epoch": 5.15746850629874,
      "grad_norm": 0.20281541347503662,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3439
    },
    {
      "epoch": 5.158968206358728,
      "grad_norm": 0.16759093105793,
      "learning_rate": 0.0001,
      "loss": 0.1357,
      "step": 3440
    },
    {
      "epoch": 5.160467906418717,
      "grad_norm": 0.14649304747581482,
      "learning_rate": 0.0001,
      "loss": 0.1413,
      "step": 3441
    },
    {
      "epoch": 5.161967606478704,
      "grad_norm": 0.18784892559051514,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 3442
    },
    {
      "epoch": 5.163467306538692,
      "grad_norm": 0.17923352122306824,
      "learning_rate": 0.0001,
      "loss": 0.1409,
      "step": 3443
    },
    {
      "epoch": 5.164967006598681,
      "grad_norm": 0.16815851628780365,
      "learning_rate": 0.0001,
      "loss": 0.1393,
      "step": 3444
    },
    {
      "epoch": 5.166466706658668,
      "grad_norm": 0.15838806331157684,
      "learning_rate": 0.0001,
      "loss": 0.1401,
      "step": 3445
    },
    {
      "epoch": 5.167966406718656,
      "grad_norm": 0.20348532497882843,
      "learning_rate": 0.0001,
      "loss": 0.1437,
      "step": 3446
    },
    {
      "epoch": 5.1694661067786445,
      "grad_norm": 0.20230253040790558,
      "learning_rate": 0.0001,
      "loss": 0.1681,
      "step": 3447
    },
    {
      "epoch": 5.170965806838632,
      "grad_norm": 0.17233671247959137,
      "learning_rate": 0.0001,
      "loss": 0.1458,
      "step": 3448
    },
    {
      "epoch": 5.17246550689862,
      "grad_norm": 0.17017300426959991,
      "learning_rate": 0.0001,
      "loss": 0.1383,
      "step": 3449
    },
    {
      "epoch": 5.173965206958608,
      "grad_norm": 0.1571856588125229,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 3450
    },
    {
      "epoch": 5.175464907018596,
      "grad_norm": 0.1600281000137329,
      "learning_rate": 0.0001,
      "loss": 0.1259,
      "step": 3451
    },
    {
      "epoch": 5.176964607078585,
      "grad_norm": 0.16483403742313385,
      "learning_rate": 0.0001,
      "loss": 0.1465,
      "step": 3452
    },
    {
      "epoch": 5.178464307138572,
      "grad_norm": 0.15785153210163116,
      "learning_rate": 0.0001,
      "loss": 0.1363,
      "step": 3453
    },
    {
      "epoch": 5.17996400719856,
      "grad_norm": 0.184651181101799,
      "learning_rate": 0.0001,
      "loss": 0.1432,
      "step": 3454
    },
    {
      "epoch": 5.1814637072585485,
      "grad_norm": 0.18487928807735443,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3455
    },
    {
      "epoch": 5.182963407318536,
      "grad_norm": 0.17564912140369415,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 3456
    },
    {
      "epoch": 5.184463107378524,
      "grad_norm": 0.1804891973733902,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 3457
    },
    {
      "epoch": 5.1859628074385125,
      "grad_norm": 0.14811712503433228,
      "learning_rate": 0.0001,
      "loss": 0.1393,
      "step": 3458
    },
    {
      "epoch": 5.1874625074985,
      "grad_norm": 0.18410968780517578,
      "learning_rate": 0.0001,
      "loss": 0.1364,
      "step": 3459
    },
    {
      "epoch": 5.188962207558489,
      "grad_norm": 0.178276926279068,
      "learning_rate": 0.0001,
      "loss": 0.1339,
      "step": 3460
    },
    {
      "epoch": 5.190461907618476,
      "grad_norm": 0.19083422422409058,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 3461
    },
    {
      "epoch": 5.191961607678464,
      "grad_norm": 0.17126360535621643,
      "learning_rate": 0.0001,
      "loss": 0.1402,
      "step": 3462
    },
    {
      "epoch": 5.193461307738453,
      "grad_norm": 0.17241351306438446,
      "learning_rate": 0.0001,
      "loss": 0.1441,
      "step": 3463
    },
    {
      "epoch": 5.19496100779844,
      "grad_norm": 0.1637216955423355,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3464
    },
    {
      "epoch": 5.196460707858428,
      "grad_norm": 0.1735437959432602,
      "learning_rate": 0.0001,
      "loss": 0.1392,
      "step": 3465
    },
    {
      "epoch": 5.1979604079184165,
      "grad_norm": 0.16997942328453064,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 3466
    },
    {
      "epoch": 5.199460107978404,
      "grad_norm": 0.1687547117471695,
      "learning_rate": 0.0001,
      "loss": 0.1374,
      "step": 3467
    },
    {
      "epoch": 5.200959808038393,
      "grad_norm": 0.1693364828824997,
      "learning_rate": 0.0001,
      "loss": 0.1413,
      "step": 3468
    },
    {
      "epoch": 5.20245950809838,
      "grad_norm": 0.16917991638183594,
      "learning_rate": 0.0001,
      "loss": 0.1383,
      "step": 3469
    },
    {
      "epoch": 5.203959208158368,
      "grad_norm": 0.16393743455410004,
      "learning_rate": 0.0001,
      "loss": 0.1335,
      "step": 3470
    },
    {
      "epoch": 5.205458908218357,
      "grad_norm": 0.17827607691287994,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 3471
    },
    {
      "epoch": 5.206958608278344,
      "grad_norm": 0.1696634143590927,
      "learning_rate": 0.0001,
      "loss": 0.1215,
      "step": 3472
    },
    {
      "epoch": 5.208458308338332,
      "grad_norm": 0.14912617206573486,
      "learning_rate": 0.0001,
      "loss": 0.129,
      "step": 3473
    },
    {
      "epoch": 5.209958008398321,
      "grad_norm": 0.18686167895793915,
      "learning_rate": 0.0001,
      "loss": 0.1487,
      "step": 3474
    },
    {
      "epoch": 5.211457708458308,
      "grad_norm": 0.15702015161514282,
      "learning_rate": 0.0001,
      "loss": 0.1305,
      "step": 3475
    },
    {
      "epoch": 5.212957408518296,
      "grad_norm": 0.19893613457679749,
      "learning_rate": 0.0001,
      "loss": 0.1339,
      "step": 3476
    },
    {
      "epoch": 5.2144571085782845,
      "grad_norm": 0.17632167041301727,
      "learning_rate": 0.0001,
      "loss": 0.1501,
      "step": 3477
    },
    {
      "epoch": 5.215956808638272,
      "grad_norm": 0.18426182866096497,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 3478
    },
    {
      "epoch": 5.217456508698261,
      "grad_norm": 0.17271670699119568,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 3479
    },
    {
      "epoch": 5.218956208758248,
      "grad_norm": 0.1753479391336441,
      "learning_rate": 0.0001,
      "loss": 0.1457,
      "step": 3480
    },
    {
      "epoch": 5.220455908818236,
      "grad_norm": 0.1728135049343109,
      "learning_rate": 0.0001,
      "loss": 0.1377,
      "step": 3481
    },
    {
      "epoch": 5.221955608878225,
      "grad_norm": 0.17406408488750458,
      "learning_rate": 0.0001,
      "loss": 0.1494,
      "step": 3482
    },
    {
      "epoch": 5.223455308938212,
      "grad_norm": 0.1952783465385437,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 3483
    },
    {
      "epoch": 5.2249550089982,
      "grad_norm": 0.2044125199317932,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 3484
    },
    {
      "epoch": 5.2264547090581885,
      "grad_norm": 0.16102534532546997,
      "learning_rate": 0.0001,
      "loss": 0.1386,
      "step": 3485
    },
    {
      "epoch": 5.227954409118176,
      "grad_norm": 0.17008589208126068,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3486
    },
    {
      "epoch": 5.229454109178165,
      "grad_norm": 0.1752045452594757,
      "learning_rate": 0.0001,
      "loss": 0.135,
      "step": 3487
    },
    {
      "epoch": 5.2309538092381525,
      "grad_norm": 0.16251374781131744,
      "learning_rate": 0.0001,
      "loss": 0.1278,
      "step": 3488
    },
    {
      "epoch": 5.23245350929814,
      "grad_norm": 0.17222441732883453,
      "learning_rate": 0.0001,
      "loss": 0.1344,
      "step": 3489
    },
    {
      "epoch": 5.233953209358129,
      "grad_norm": 0.1872607171535492,
      "learning_rate": 0.0001,
      "loss": 0.1547,
      "step": 3490
    },
    {
      "epoch": 5.235452909418116,
      "grad_norm": 0.14798565208911896,
      "learning_rate": 0.0001,
      "loss": 0.1507,
      "step": 3491
    },
    {
      "epoch": 5.236952609478104,
      "grad_norm": 0.15936490893363953,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3492
    },
    {
      "epoch": 5.238452309538093,
      "grad_norm": 0.1773211807012558,
      "learning_rate": 0.0001,
      "loss": 0.1481,
      "step": 3493
    },
    {
      "epoch": 5.23995200959808,
      "grad_norm": 0.15136957168579102,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 3494
    },
    {
      "epoch": 5.241451709658069,
      "grad_norm": 0.167276069521904,
      "learning_rate": 0.0001,
      "loss": 0.1553,
      "step": 3495
    },
    {
      "epoch": 5.2429514097180565,
      "grad_norm": 0.1287364661693573,
      "learning_rate": 0.0001,
      "loss": 0.1248,
      "step": 3496
    },
    {
      "epoch": 5.244451109778044,
      "grad_norm": 0.1706928312778473,
      "learning_rate": 0.0001,
      "loss": 0.1274,
      "step": 3497
    },
    {
      "epoch": 5.245950809838033,
      "grad_norm": 0.1666533648967743,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 3498
    },
    {
      "epoch": 5.24745050989802,
      "grad_norm": 0.18294736742973328,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3499
    },
    {
      "epoch": 5.248950209958008,
      "grad_norm": 0.2935909926891327,
      "learning_rate": 0.0001,
      "loss": 0.1474,
      "step": 3500
    },
    {
      "epoch": 5.248950209958008,
      "eval_loss": 0.19555442035198212,
      "eval_runtime": 508.6293,
      "eval_samples_per_second": 4.915,
      "eval_steps_per_second": 1.229,
      "step": 3500
    },
    {
      "epoch": 5.250449910017997,
      "grad_norm": 0.1390666663646698,
      "learning_rate": 0.0001,
      "loss": 0.1314,
      "step": 3501
    },
    {
      "epoch": 5.251949610077984,
      "grad_norm": 0.15767233073711395,
      "learning_rate": 0.0001,
      "loss": 0.1482,
      "step": 3502
    },
    {
      "epoch": 5.253449310137972,
      "grad_norm": 0.15537092089653015,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3503
    },
    {
      "epoch": 5.254949010197961,
      "grad_norm": 0.18422766029834747,
      "learning_rate": 0.0001,
      "loss": 0.1567,
      "step": 3504
    },
    {
      "epoch": 5.256448710257948,
      "grad_norm": 0.2501283884048462,
      "learning_rate": 0.0001,
      "loss": 0.1458,
      "step": 3505
    },
    {
      "epoch": 5.257948410317937,
      "grad_norm": 0.18364162743091583,
      "learning_rate": 0.0001,
      "loss": 0.1439,
      "step": 3506
    },
    {
      "epoch": 5.2594481103779245,
      "grad_norm": 0.1875472366809845,
      "learning_rate": 0.0001,
      "loss": 0.1592,
      "step": 3507
    },
    {
      "epoch": 5.260947810437912,
      "grad_norm": 0.16972343623638153,
      "learning_rate": 0.0001,
      "loss": 0.1402,
      "step": 3508
    },
    {
      "epoch": 5.262447510497901,
      "grad_norm": 0.1655346304178238,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 3509
    },
    {
      "epoch": 5.263947210557888,
      "grad_norm": 0.17091913521289825,
      "learning_rate": 0.0001,
      "loss": 0.1396,
      "step": 3510
    },
    {
      "epoch": 5.265446910617876,
      "grad_norm": 0.18826211988925934,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3511
    },
    {
      "epoch": 5.266946610677865,
      "grad_norm": 0.1795281618833542,
      "learning_rate": 0.0001,
      "loss": 0.1414,
      "step": 3512
    },
    {
      "epoch": 5.268446310737852,
      "grad_norm": 0.15516838431358337,
      "learning_rate": 0.0001,
      "loss": 0.138,
      "step": 3513
    },
    {
      "epoch": 5.26994601079784,
      "grad_norm": 0.19153818488121033,
      "learning_rate": 0.0001,
      "loss": 0.1588,
      "step": 3514
    },
    {
      "epoch": 5.2714457108578285,
      "grad_norm": 0.215378999710083,
      "learning_rate": 0.0001,
      "loss": 0.1611,
      "step": 3515
    },
    {
      "epoch": 5.272945410917816,
      "grad_norm": 0.1588616520166397,
      "learning_rate": 0.0001,
      "loss": 0.1303,
      "step": 3516
    },
    {
      "epoch": 5.274445110977805,
      "grad_norm": 0.16812637448310852,
      "learning_rate": 0.0001,
      "loss": 0.1344,
      "step": 3517
    },
    {
      "epoch": 5.2759448110377924,
      "grad_norm": 0.1716638207435608,
      "learning_rate": 0.0001,
      "loss": 0.1396,
      "step": 3518
    },
    {
      "epoch": 5.27744451109778,
      "grad_norm": 0.17882691323757172,
      "learning_rate": 0.0001,
      "loss": 0.1423,
      "step": 3519
    },
    {
      "epoch": 5.278944211157769,
      "grad_norm": 0.20942416787147522,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 3520
    },
    {
      "epoch": 5.280443911217756,
      "grad_norm": 0.18400372564792633,
      "learning_rate": 0.0001,
      "loss": 0.1414,
      "step": 3521
    },
    {
      "epoch": 5.281943611277745,
      "grad_norm": 0.16575434803962708,
      "learning_rate": 0.0001,
      "loss": 0.1401,
      "step": 3522
    },
    {
      "epoch": 5.283443311337733,
      "grad_norm": 0.1633693128824234,
      "learning_rate": 0.0001,
      "loss": 0.1337,
      "step": 3523
    },
    {
      "epoch": 5.28494301139772,
      "grad_norm": 0.15727949142456055,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 3524
    },
    {
      "epoch": 5.286442711457709,
      "grad_norm": 0.18613016605377197,
      "learning_rate": 0.0001,
      "loss": 0.141,
      "step": 3525
    },
    {
      "epoch": 5.2879424115176965,
      "grad_norm": 0.17113758623600006,
      "learning_rate": 0.0001,
      "loss": 0.1495,
      "step": 3526
    },
    {
      "epoch": 5.289442111577684,
      "grad_norm": 0.6482580900192261,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 3527
    },
    {
      "epoch": 5.290941811637673,
      "grad_norm": 0.19010964035987854,
      "learning_rate": 0.0001,
      "loss": 0.1463,
      "step": 3528
    },
    {
      "epoch": 5.29244151169766,
      "grad_norm": 0.17048169672489166,
      "learning_rate": 0.0001,
      "loss": 0.137,
      "step": 3529
    },
    {
      "epoch": 5.293941211757648,
      "grad_norm": 0.201302632689476,
      "learning_rate": 0.0001,
      "loss": 0.1623,
      "step": 3530
    },
    {
      "epoch": 5.295440911817637,
      "grad_norm": 0.18627381324768066,
      "learning_rate": 0.0001,
      "loss": 0.1353,
      "step": 3531
    },
    {
      "epoch": 5.296940611877624,
      "grad_norm": 0.15774890780448914,
      "learning_rate": 0.0001,
      "loss": 0.1359,
      "step": 3532
    },
    {
      "epoch": 5.298440311937613,
      "grad_norm": 0.18029437959194183,
      "learning_rate": 0.0001,
      "loss": 0.1437,
      "step": 3533
    },
    {
      "epoch": 5.299940011997601,
      "grad_norm": 0.2007940709590912,
      "learning_rate": 0.0001,
      "loss": 0.1511,
      "step": 3534
    },
    {
      "epoch": 5.301439712057588,
      "grad_norm": 0.18988874554634094,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 3535
    },
    {
      "epoch": 5.302939412117577,
      "grad_norm": 0.1564333289861679,
      "learning_rate": 0.0001,
      "loss": 0.1471,
      "step": 3536
    },
    {
      "epoch": 5.3044391121775645,
      "grad_norm": 0.19800235331058502,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 3537
    },
    {
      "epoch": 5.305938812237552,
      "grad_norm": 0.1482953280210495,
      "learning_rate": 0.0001,
      "loss": 0.138,
      "step": 3538
    },
    {
      "epoch": 5.307438512297541,
      "grad_norm": 0.40801307559013367,
      "learning_rate": 0.0001,
      "loss": 0.148,
      "step": 3539
    },
    {
      "epoch": 5.308938212357528,
      "grad_norm": 0.15960940718650818,
      "learning_rate": 0.0001,
      "loss": 0.1333,
      "step": 3540
    },
    {
      "epoch": 5.310437912417516,
      "grad_norm": 0.25027644634246826,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3541
    },
    {
      "epoch": 5.311937612477505,
      "grad_norm": 0.12875738739967346,
      "learning_rate": 0.0001,
      "loss": 0.1261,
      "step": 3542
    },
    {
      "epoch": 5.313437312537492,
      "grad_norm": 0.1372000128030777,
      "learning_rate": 0.0001,
      "loss": 0.1267,
      "step": 3543
    },
    {
      "epoch": 5.314937012597481,
      "grad_norm": 0.16447021067142487,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3544
    },
    {
      "epoch": 5.3164367126574685,
      "grad_norm": 0.16464738547801971,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 3545
    },
    {
      "epoch": 5.317936412717456,
      "grad_norm": 0.17921043932437897,
      "learning_rate": 0.0001,
      "loss": 0.1383,
      "step": 3546
    },
    {
      "epoch": 5.319436112777445,
      "grad_norm": 0.180715873837471,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 3547
    },
    {
      "epoch": 5.320935812837432,
      "grad_norm": 0.19134676456451416,
      "learning_rate": 0.0001,
      "loss": 0.1454,
      "step": 3548
    },
    {
      "epoch": 5.32243551289742,
      "grad_norm": 0.19807352125644684,
      "learning_rate": 0.0001,
      "loss": 0.1462,
      "step": 3549
    },
    {
      "epoch": 5.323935212957409,
      "grad_norm": 0.1735781729221344,
      "learning_rate": 0.0001,
      "loss": 0.1328,
      "step": 3550
    },
    {
      "epoch": 5.325434913017396,
      "grad_norm": 0.1681472659111023,
      "learning_rate": 0.0001,
      "loss": 0.1354,
      "step": 3551
    },
    {
      "epoch": 5.326934613077385,
      "grad_norm": 0.15119680762290955,
      "learning_rate": 0.0001,
      "loss": 0.1386,
      "step": 3552
    },
    {
      "epoch": 5.328434313137373,
      "grad_norm": 0.17413341999053955,
      "learning_rate": 0.0001,
      "loss": 0.1419,
      "step": 3553
    },
    {
      "epoch": 5.32993401319736,
      "grad_norm": 0.1664772629737854,
      "learning_rate": 0.0001,
      "loss": 0.1407,
      "step": 3554
    },
    {
      "epoch": 5.331433713257349,
      "grad_norm": 0.17322216928005219,
      "learning_rate": 0.0001,
      "loss": 0.142,
      "step": 3555
    },
    {
      "epoch": 5.3329334133173365,
      "grad_norm": 0.15010033547878265,
      "learning_rate": 0.0001,
      "loss": 0.1433,
      "step": 3556
    },
    {
      "epoch": 5.334433113377324,
      "grad_norm": 0.28314536809921265,
      "learning_rate": 0.0001,
      "loss": 0.1496,
      "step": 3557
    },
    {
      "epoch": 5.335932813437313,
      "grad_norm": 0.186571404337883,
      "learning_rate": 0.0001,
      "loss": 0.1256,
      "step": 3558
    },
    {
      "epoch": 5.3374325134973,
      "grad_norm": 0.2226875126361847,
      "learning_rate": 0.0001,
      "loss": 0.1298,
      "step": 3559
    },
    {
      "epoch": 5.338932213557289,
      "grad_norm": 0.15345056354999542,
      "learning_rate": 0.0001,
      "loss": 0.1268,
      "step": 3560
    },
    {
      "epoch": 5.340431913617277,
      "grad_norm": 0.30917277932167053,
      "learning_rate": 0.0001,
      "loss": 0.1625,
      "step": 3561
    },
    {
      "epoch": 5.341931613677264,
      "grad_norm": 0.18590456247329712,
      "learning_rate": 0.0001,
      "loss": 0.1349,
      "step": 3562
    },
    {
      "epoch": 5.343431313737253,
      "grad_norm": 0.16569645702838898,
      "learning_rate": 0.0001,
      "loss": 0.1438,
      "step": 3563
    },
    {
      "epoch": 5.344931013797241,
      "grad_norm": 0.18688346445560455,
      "learning_rate": 0.0001,
      "loss": 0.1478,
      "step": 3564
    },
    {
      "epoch": 5.346430713857228,
      "grad_norm": 0.18686707317829132,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 3565
    },
    {
      "epoch": 5.347930413917217,
      "grad_norm": 0.1694124937057495,
      "learning_rate": 0.0001,
      "loss": 0.1246,
      "step": 3566
    },
    {
      "epoch": 5.3494301139772045,
      "grad_norm": 0.1785288155078888,
      "learning_rate": 0.0001,
      "loss": 0.1474,
      "step": 3567
    },
    {
      "epoch": 5.350929814037192,
      "grad_norm": 0.2758544087409973,
      "learning_rate": 0.0001,
      "loss": 0.1467,
      "step": 3568
    },
    {
      "epoch": 5.352429514097181,
      "grad_norm": 0.17953304946422577,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 3569
    },
    {
      "epoch": 5.353929214157168,
      "grad_norm": 0.15123844146728516,
      "learning_rate": 0.0001,
      "loss": 0.1433,
      "step": 3570
    },
    {
      "epoch": 5.355428914217157,
      "grad_norm": 0.15833212435245514,
      "learning_rate": 0.0001,
      "loss": 0.1315,
      "step": 3571
    },
    {
      "epoch": 5.356928614277145,
      "grad_norm": 0.1550290435552597,
      "learning_rate": 0.0001,
      "loss": 0.141,
      "step": 3572
    },
    {
      "epoch": 5.358428314337132,
      "grad_norm": 0.16613627970218658,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 3573
    },
    {
      "epoch": 5.359928014397121,
      "grad_norm": 0.15516769886016846,
      "learning_rate": 0.0001,
      "loss": 0.1635,
      "step": 3574
    },
    {
      "epoch": 5.3614277144571085,
      "grad_norm": 0.15213626623153687,
      "learning_rate": 0.0001,
      "loss": 0.1335,
      "step": 3575
    },
    {
      "epoch": 5.362927414517096,
      "grad_norm": 0.16638492047786713,
      "learning_rate": 0.0001,
      "loss": 0.1461,
      "step": 3576
    },
    {
      "epoch": 5.364427114577085,
      "grad_norm": 0.16889144480228424,
      "learning_rate": 0.0001,
      "loss": 0.1421,
      "step": 3577
    },
    {
      "epoch": 5.365926814637072,
      "grad_norm": 0.1758376657962799,
      "learning_rate": 0.0001,
      "loss": 0.1336,
      "step": 3578
    },
    {
      "epoch": 5.367426514697061,
      "grad_norm": 0.17610633373260498,
      "learning_rate": 0.0001,
      "loss": 0.1504,
      "step": 3579
    },
    {
      "epoch": 5.368926214757049,
      "grad_norm": 0.18354281783103943,
      "learning_rate": 0.0001,
      "loss": 0.1499,
      "step": 3580
    },
    {
      "epoch": 5.370425914817036,
      "grad_norm": 0.20806150138378143,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3581
    },
    {
      "epoch": 5.371925614877025,
      "grad_norm": 0.16091394424438477,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3582
    },
    {
      "epoch": 5.373425314937013,
      "grad_norm": 0.18054498732089996,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 3583
    },
    {
      "epoch": 5.374925014997,
      "grad_norm": 0.174618661403656,
      "learning_rate": 0.0001,
      "loss": 0.1509,
      "step": 3584
    },
    {
      "epoch": 5.376424715056989,
      "grad_norm": 0.1590406596660614,
      "learning_rate": 0.0001,
      "loss": 0.1343,
      "step": 3585
    },
    {
      "epoch": 5.3779244151169765,
      "grad_norm": 0.18306022882461548,
      "learning_rate": 0.0001,
      "loss": 0.1384,
      "step": 3586
    },
    {
      "epoch": 5.379424115176965,
      "grad_norm": 0.15467098355293274,
      "learning_rate": 0.0001,
      "loss": 0.1325,
      "step": 3587
    },
    {
      "epoch": 5.380923815236953,
      "grad_norm": 0.1619652807712555,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 3588
    },
    {
      "epoch": 5.38242351529694,
      "grad_norm": 0.17598438262939453,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3589
    },
    {
      "epoch": 5.383923215356929,
      "grad_norm": 0.17914031445980072,
      "learning_rate": 0.0001,
      "loss": 0.1307,
      "step": 3590
    },
    {
      "epoch": 5.385422915416917,
      "grad_norm": 0.19573235511779785,
      "learning_rate": 0.0001,
      "loss": 0.1445,
      "step": 3591
    },
    {
      "epoch": 5.386922615476904,
      "grad_norm": 0.14761202037334442,
      "learning_rate": 0.0001,
      "loss": 0.139,
      "step": 3592
    },
    {
      "epoch": 5.388422315536893,
      "grad_norm": 0.18896347284317017,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 3593
    },
    {
      "epoch": 5.3899220155968806,
      "grad_norm": 0.16332457959651947,
      "learning_rate": 0.0001,
      "loss": 0.1399,
      "step": 3594
    },
    {
      "epoch": 5.391421715656868,
      "grad_norm": 0.15941122174263,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 3595
    },
    {
      "epoch": 5.392921415716857,
      "grad_norm": 0.1614346206188202,
      "learning_rate": 0.0001,
      "loss": 0.1367,
      "step": 3596
    },
    {
      "epoch": 5.3944211157768445,
      "grad_norm": 0.2085162252187729,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 3597
    },
    {
      "epoch": 5.395920815836833,
      "grad_norm": 0.18925046920776367,
      "learning_rate": 0.0001,
      "loss": 0.1383,
      "step": 3598
    },
    {
      "epoch": 5.397420515896821,
      "grad_norm": 0.15931938588619232,
      "learning_rate": 0.0001,
      "loss": 0.1429,
      "step": 3599
    },
    {
      "epoch": 5.398920215956808,
      "grad_norm": 0.16611702740192413,
      "learning_rate": 0.0001,
      "loss": 0.1387,
      "step": 3600
    },
    {
      "epoch": 5.400419916016797,
      "grad_norm": 0.15140406787395477,
      "learning_rate": 0.0001,
      "loss": 0.139,
      "step": 3601
    },
    {
      "epoch": 5.401919616076785,
      "grad_norm": 0.18097610771656036,
      "learning_rate": 0.0001,
      "loss": 0.1524,
      "step": 3602
    },
    {
      "epoch": 5.403419316136772,
      "grad_norm": 0.15105539560317993,
      "learning_rate": 0.0001,
      "loss": 0.1354,
      "step": 3603
    },
    {
      "epoch": 5.404919016196761,
      "grad_norm": 0.17675817012786865,
      "learning_rate": 0.0001,
      "loss": 0.1398,
      "step": 3604
    },
    {
      "epoch": 5.4064187162567485,
      "grad_norm": 0.16592706739902496,
      "learning_rate": 0.0001,
      "loss": 0.1436,
      "step": 3605
    },
    {
      "epoch": 5.407918416316736,
      "grad_norm": 0.19189748167991638,
      "learning_rate": 0.0001,
      "loss": 0.149,
      "step": 3606
    },
    {
      "epoch": 5.409418116376725,
      "grad_norm": 0.16100843250751495,
      "learning_rate": 0.0001,
      "loss": 0.1357,
      "step": 3607
    },
    {
      "epoch": 5.410917816436712,
      "grad_norm": 0.1644178181886673,
      "learning_rate": 0.0001,
      "loss": 0.1544,
      "step": 3608
    },
    {
      "epoch": 5.412417516496701,
      "grad_norm": 0.14634235203266144,
      "learning_rate": 0.0001,
      "loss": 0.1335,
      "step": 3609
    },
    {
      "epoch": 5.413917216556689,
      "grad_norm": 0.19818873703479767,
      "learning_rate": 0.0001,
      "loss": 0.1434,
      "step": 3610
    },
    {
      "epoch": 5.415416916616676,
      "grad_norm": 0.18922212719917297,
      "learning_rate": 0.0001,
      "loss": 0.1529,
      "step": 3611
    },
    {
      "epoch": 5.416916616676665,
      "grad_norm": 0.19591958820819855,
      "learning_rate": 0.0001,
      "loss": 0.1585,
      "step": 3612
    },
    {
      "epoch": 5.418416316736653,
      "grad_norm": 0.13518093526363373,
      "learning_rate": 0.0001,
      "loss": 0.1347,
      "step": 3613
    },
    {
      "epoch": 5.41991601679664,
      "grad_norm": 0.14631308615207672,
      "learning_rate": 0.0001,
      "loss": 0.1376,
      "step": 3614
    },
    {
      "epoch": 5.421415716856629,
      "grad_norm": 0.17108193039894104,
      "learning_rate": 0.0001,
      "loss": 0.1463,
      "step": 3615
    },
    {
      "epoch": 5.4229154169166165,
      "grad_norm": 0.23098719120025635,
      "learning_rate": 0.0001,
      "loss": 0.1438,
      "step": 3616
    },
    {
      "epoch": 5.424415116976605,
      "grad_norm": 0.19840237498283386,
      "learning_rate": 0.0001,
      "loss": 0.1591,
      "step": 3617
    },
    {
      "epoch": 5.425914817036593,
      "grad_norm": 0.16521577537059784,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 3618
    },
    {
      "epoch": 5.42741451709658,
      "grad_norm": 0.16675923764705658,
      "learning_rate": 0.0001,
      "loss": 0.1385,
      "step": 3619
    },
    {
      "epoch": 5.428914217156569,
      "grad_norm": 0.17890988290309906,
      "learning_rate": 0.0001,
      "loss": 0.1373,
      "step": 3620
    },
    {
      "epoch": 5.430413917216557,
      "grad_norm": 0.1637311577796936,
      "learning_rate": 0.0001,
      "loss": 0.1451,
      "step": 3621
    },
    {
      "epoch": 5.431913617276544,
      "grad_norm": 0.17070527374744415,
      "learning_rate": 0.0001,
      "loss": 0.1453,
      "step": 3622
    },
    {
      "epoch": 5.433413317336533,
      "grad_norm": 0.1651947796344757,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3623
    },
    {
      "epoch": 5.4349130173965206,
      "grad_norm": 0.18197984993457794,
      "learning_rate": 0.0001,
      "loss": 0.1526,
      "step": 3624
    },
    {
      "epoch": 5.436412717456509,
      "grad_norm": 0.18701356649398804,
      "learning_rate": 0.0001,
      "loss": 0.1363,
      "step": 3625
    },
    {
      "epoch": 5.437912417516497,
      "grad_norm": 0.1652771234512329,
      "learning_rate": 0.0001,
      "loss": 0.1321,
      "step": 3626
    },
    {
      "epoch": 5.4394121175764845,
      "grad_norm": 0.16581280529499054,
      "learning_rate": 0.0001,
      "loss": 0.1297,
      "step": 3627
    },
    {
      "epoch": 5.440911817636473,
      "grad_norm": 0.14672480523586273,
      "learning_rate": 0.0001,
      "loss": 0.1341,
      "step": 3628
    },
    {
      "epoch": 5.442411517696461,
      "grad_norm": 0.1687186062335968,
      "learning_rate": 0.0001,
      "loss": 0.159,
      "step": 3629
    },
    {
      "epoch": 5.443911217756448,
      "grad_norm": 0.23943284153938293,
      "learning_rate": 0.0001,
      "loss": 0.1491,
      "step": 3630
    },
    {
      "epoch": 5.445410917816437,
      "grad_norm": 0.15635360777378082,
      "learning_rate": 0.0001,
      "loss": 0.1551,
      "step": 3631
    },
    {
      "epoch": 5.446910617876425,
      "grad_norm": 0.15932083129882812,
      "learning_rate": 0.0001,
      "loss": 0.1455,
      "step": 3632
    },
    {
      "epoch": 5.448410317936412,
      "grad_norm": 0.16879874467849731,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 3633
    },
    {
      "epoch": 5.449910017996401,
      "grad_norm": 0.18823835253715515,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 3634
    },
    {
      "epoch": 5.4514097180563885,
      "grad_norm": 0.1801738440990448,
      "learning_rate": 0.0001,
      "loss": 0.1652,
      "step": 3635
    },
    {
      "epoch": 5.452909418116377,
      "grad_norm": 0.15815754234790802,
      "learning_rate": 0.0001,
      "loss": 0.1337,
      "step": 3636
    },
    {
      "epoch": 5.454409118176365,
      "grad_norm": 0.19344249367713928,
      "learning_rate": 0.0001,
      "loss": 0.1424,
      "step": 3637
    },
    {
      "epoch": 5.455908818236352,
      "grad_norm": 0.15847012400627136,
      "learning_rate": 0.0001,
      "loss": 0.1285,
      "step": 3638
    },
    {
      "epoch": 5.457408518296341,
      "grad_norm": 0.2566556930541992,
      "learning_rate": 0.0001,
      "loss": 0.1422,
      "step": 3639
    },
    {
      "epoch": 5.458908218356329,
      "grad_norm": 0.16192321479320526,
      "learning_rate": 0.0001,
      "loss": 0.1384,
      "step": 3640
    },
    {
      "epoch": 5.460407918416316,
      "grad_norm": 0.16608481109142303,
      "learning_rate": 0.0001,
      "loss": 0.1406,
      "step": 3641
    },
    {
      "epoch": 5.461907618476305,
      "grad_norm": 0.1795887053012848,
      "learning_rate": 0.0001,
      "loss": 0.1438,
      "step": 3642
    },
    {
      "epoch": 5.463407318536293,
      "grad_norm": 0.18716304004192352,
      "learning_rate": 0.0001,
      "loss": 0.1393,
      "step": 3643
    },
    {
      "epoch": 5.464907018596281,
      "grad_norm": 0.18571552634239197,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 3644
    },
    {
      "epoch": 5.466406718656269,
      "grad_norm": 0.17359569668769836,
      "learning_rate": 0.0001,
      "loss": 0.1424,
      "step": 3645
    },
    {
      "epoch": 5.4679064187162565,
      "grad_norm": 0.20234081149101257,
      "learning_rate": 0.0001,
      "loss": 0.1607,
      "step": 3646
    },
    {
      "epoch": 5.469406118776245,
      "grad_norm": 0.17986805737018585,
      "learning_rate": 0.0001,
      "loss": 0.1556,
      "step": 3647
    },
    {
      "epoch": 5.470905818836233,
      "grad_norm": 0.1583903729915619,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3648
    },
    {
      "epoch": 5.47240551889622,
      "grad_norm": 0.16030287742614746,
      "learning_rate": 0.0001,
      "loss": 0.1581,
      "step": 3649
    },
    {
      "epoch": 5.473905218956209,
      "grad_norm": 0.2279251366853714,
      "learning_rate": 0.0001,
      "loss": 0.1633,
      "step": 3650
    },
    {
      "epoch": 5.475404919016197,
      "grad_norm": 0.15797238051891327,
      "learning_rate": 0.0001,
      "loss": 0.1519,
      "step": 3651
    },
    {
      "epoch": 5.476904619076185,
      "grad_norm": 0.15695320069789886,
      "learning_rate": 0.0001,
      "loss": 0.1408,
      "step": 3652
    },
    {
      "epoch": 5.478404319136173,
      "grad_norm": 0.16876795887947083,
      "learning_rate": 0.0001,
      "loss": 0.145,
      "step": 3653
    },
    {
      "epoch": 5.4799040191961605,
      "grad_norm": 0.15633925795555115,
      "learning_rate": 0.0001,
      "loss": 0.1361,
      "step": 3654
    },
    {
      "epoch": 5.481403719256149,
      "grad_norm": 0.16699691116809845,
      "learning_rate": 0.0001,
      "loss": 0.1343,
      "step": 3655
    },
    {
      "epoch": 5.482903419316137,
      "grad_norm": 0.17581002414226532,
      "learning_rate": 0.0001,
      "loss": 0.1462,
      "step": 3656
    },
    {
      "epoch": 5.4844031193761245,
      "grad_norm": 0.16595077514648438,
      "learning_rate": 0.0001,
      "loss": 0.1503,
      "step": 3657
    },
    {
      "epoch": 5.485902819436113,
      "grad_norm": 0.1498950570821762,
      "learning_rate": 0.0001,
      "loss": 0.1342,
      "step": 3658
    },
    {
      "epoch": 5.487402519496101,
      "grad_norm": 0.16801930963993073,
      "learning_rate": 0.0001,
      "loss": 0.1348,
      "step": 3659
    },
    {
      "epoch": 5.488902219556088,
      "grad_norm": 0.1415957659482956,
      "learning_rate": 0.0001,
      "loss": 0.1272,
      "step": 3660
    },
    {
      "epoch": 5.490401919616077,
      "grad_norm": 0.18512119352817535,
      "learning_rate": 0.0001,
      "loss": 0.1466,
      "step": 3661
    },
    {
      "epoch": 5.491901619676065,
      "grad_norm": 0.17718906700611115,
      "learning_rate": 0.0001,
      "loss": 0.1329,
      "step": 3662
    },
    {
      "epoch": 5.493401319736053,
      "grad_norm": 0.1988234668970108,
      "learning_rate": 0.0001,
      "loss": 0.1634,
      "step": 3663
    },
    {
      "epoch": 5.494901019796041,
      "grad_norm": 0.18375572562217712,
      "learning_rate": 0.0001,
      "loss": 0.1414,
      "step": 3664
    },
    {
      "epoch": 5.4964007198560285,
      "grad_norm": 0.14337781071662903,
      "learning_rate": 0.0001,
      "loss": 0.1348,
      "step": 3665
    },
    {
      "epoch": 5.497900419916017,
      "grad_norm": 0.2325272113084793,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 3666
    },
    {
      "epoch": 5.499400119976005,
      "grad_norm": 0.22840511798858643,
      "learning_rate": 0.0001,
      "loss": 0.1398,
      "step": 3667
    },
    {
      "epoch": 5.500899820035992,
      "grad_norm": 0.1718159019947052,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 3668
    },
    {
      "epoch": 5.502399520095981,
      "grad_norm": 0.15733171999454498,
      "learning_rate": 0.0001,
      "loss": 0.1482,
      "step": 3669
    },
    {
      "epoch": 5.503899220155969,
      "grad_norm": 0.1547730267047882,
      "learning_rate": 0.0001,
      "loss": 0.1336,
      "step": 3670
    },
    {
      "epoch": 5.505398920215956,
      "grad_norm": 0.1787315160036087,
      "learning_rate": 0.0001,
      "loss": 0.1484,
      "step": 3671
    },
    {
      "epoch": 5.506898620275945,
      "grad_norm": 0.16522423923015594,
      "learning_rate": 0.0001,
      "loss": 0.1398,
      "step": 3672
    },
    {
      "epoch": 5.508398320335933,
      "grad_norm": 0.16689540445804596,
      "learning_rate": 0.0001,
      "loss": 0.14,
      "step": 3673
    },
    {
      "epoch": 5.509898020395921,
      "grad_norm": 0.18408851325511932,
      "learning_rate": 0.0001,
      "loss": 0.1529,
      "step": 3674
    },
    {
      "epoch": 5.511397720455909,
      "grad_norm": 0.15743300318717957,
      "learning_rate": 0.0001,
      "loss": 0.136,
      "step": 3675
    },
    {
      "epoch": 5.5128974205158965,
      "grad_norm": 0.1552962362766266,
      "learning_rate": 0.0001,
      "loss": 0.1385,
      "step": 3676
    },
    {
      "epoch": 5.514397120575885,
      "grad_norm": 0.17040030658245087,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 3677
    },
    {
      "epoch": 5.515896820635873,
      "grad_norm": 0.16248422861099243,
      "learning_rate": 0.0001,
      "loss": 0.1361,
      "step": 3678
    },
    {
      "epoch": 5.517396520695861,
      "grad_norm": 0.16596099734306335,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 3679
    },
    {
      "epoch": 5.518896220755849,
      "grad_norm": 0.2580041289329529,
      "learning_rate": 0.0001,
      "loss": 0.1616,
      "step": 3680
    },
    {
      "epoch": 5.520395920815837,
      "grad_norm": 0.18787285685539246,
      "learning_rate": 0.0001,
      "loss": 0.1387,
      "step": 3681
    },
    {
      "epoch": 5.521895620875825,
      "grad_norm": 0.1867820918560028,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 3682
    },
    {
      "epoch": 5.523395320935813,
      "grad_norm": 0.16582699120044708,
      "learning_rate": 0.0001,
      "loss": 0.1442,
      "step": 3683
    },
    {
      "epoch": 5.5248950209958005,
      "grad_norm": 0.18358604609966278,
      "learning_rate": 0.0001,
      "loss": 0.1515,
      "step": 3684
    },
    {
      "epoch": 5.526394721055789,
      "grad_norm": 0.24174341559410095,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 3685
    },
    {
      "epoch": 5.527894421115777,
      "grad_norm": 0.17751571536064148,
      "learning_rate": 0.0001,
      "loss": 0.1473,
      "step": 3686
    },
    {
      "epoch": 5.5293941211757645,
      "grad_norm": 0.1879177689552307,
      "learning_rate": 0.0001,
      "loss": 0.1447,
      "step": 3687
    },
    {
      "epoch": 5.530893821235753,
      "grad_norm": 0.17532703280448914,
      "learning_rate": 0.0001,
      "loss": 0.1557,
      "step": 3688
    },
    {
      "epoch": 5.532393521295741,
      "grad_norm": 0.18406593799591064,
      "learning_rate": 0.0001,
      "loss": 0.1322,
      "step": 3689
    },
    {
      "epoch": 5.533893221355729,
      "grad_norm": 0.18308070302009583,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 3690
    },
    {
      "epoch": 5.535392921415717,
      "grad_norm": 0.14311063289642334,
      "learning_rate": 0.0001,
      "loss": 0.1253,
      "step": 3691
    },
    {
      "epoch": 5.536892621475705,
      "grad_norm": 0.16009493172168732,
      "learning_rate": 0.0001,
      "loss": 0.149,
      "step": 3692
    },
    {
      "epoch": 5.538392321535693,
      "grad_norm": 0.14899319410324097,
      "learning_rate": 0.0001,
      "loss": 0.1388,
      "step": 3693
    },
    {
      "epoch": 5.539892021595681,
      "grad_norm": 0.18830104172229767,
      "learning_rate": 0.0001,
      "loss": 0.1546,
      "step": 3694
    },
    {
      "epoch": 5.5413917216556685,
      "grad_norm": 0.20025743544101715,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3695
    },
    {
      "epoch": 5.542891421715657,
      "grad_norm": 0.19273251295089722,
      "learning_rate": 0.0001,
      "loss": 0.1641,
      "step": 3696
    },
    {
      "epoch": 5.544391121775645,
      "grad_norm": 0.15933777391910553,
      "learning_rate": 0.0001,
      "loss": 0.1529,
      "step": 3697
    },
    {
      "epoch": 5.545890821835632,
      "grad_norm": 0.15347230434417725,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 3698
    },
    {
      "epoch": 5.547390521895621,
      "grad_norm": 0.20962688326835632,
      "learning_rate": 0.0001,
      "loss": 0.161,
      "step": 3699
    },
    {
      "epoch": 5.548890221955609,
      "grad_norm": 0.16151568293571472,
      "learning_rate": 0.0001,
      "loss": 0.1242,
      "step": 3700
    },
    {
      "epoch": 5.550389922015597,
      "grad_norm": 0.1601472944021225,
      "learning_rate": 0.0001,
      "loss": 0.1326,
      "step": 3701
    },
    {
      "epoch": 5.551889622075585,
      "grad_norm": 0.17937690019607544,
      "learning_rate": 0.0001,
      "loss": 0.1402,
      "step": 3702
    },
    {
      "epoch": 5.553389322135573,
      "grad_norm": 0.19822660088539124,
      "learning_rate": 0.0001,
      "loss": 0.1487,
      "step": 3703
    },
    {
      "epoch": 5.554889022195561,
      "grad_norm": 0.17203867435455322,
      "learning_rate": 0.0001,
      "loss": 0.1449,
      "step": 3704
    },
    {
      "epoch": 5.556388722255549,
      "grad_norm": 0.22367161512374878,
      "learning_rate": 0.0001,
      "loss": 0.1523,
      "step": 3705
    },
    {
      "epoch": 5.557888422315537,
      "grad_norm": 0.19750280678272247,
      "learning_rate": 0.0001,
      "loss": 0.1466,
      "step": 3706
    },
    {
      "epoch": 5.559388122375525,
      "grad_norm": 0.16819791495800018,
      "learning_rate": 0.0001,
      "loss": 0.1341,
      "step": 3707
    },
    {
      "epoch": 5.560887822435513,
      "grad_norm": 0.1618056446313858,
      "learning_rate": 0.0001,
      "loss": 0.1455,
      "step": 3708
    },
    {
      "epoch": 5.562387522495501,
      "grad_norm": 0.1722942590713501,
      "learning_rate": 0.0001,
      "loss": 0.1408,
      "step": 3709
    },
    {
      "epoch": 5.563887222555489,
      "grad_norm": 0.18442924320697784,
      "learning_rate": 0.0001,
      "loss": 0.1476,
      "step": 3710
    },
    {
      "epoch": 5.565386922615477,
      "grad_norm": 0.15212324261665344,
      "learning_rate": 0.0001,
      "loss": 0.1368,
      "step": 3711
    },
    {
      "epoch": 5.566886622675465,
      "grad_norm": 0.20107115805149078,
      "learning_rate": 0.0001,
      "loss": 0.1498,
      "step": 3712
    },
    {
      "epoch": 5.568386322735453,
      "grad_norm": 0.16306866705417633,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3713
    },
    {
      "epoch": 5.5698860227954405,
      "grad_norm": 0.1721390038728714,
      "learning_rate": 0.0001,
      "loss": 0.155,
      "step": 3714
    },
    {
      "epoch": 5.571385722855429,
      "grad_norm": 0.16342519223690033,
      "learning_rate": 0.0001,
      "loss": 0.1505,
      "step": 3715
    },
    {
      "epoch": 5.572885422915417,
      "grad_norm": 0.14778712391853333,
      "learning_rate": 0.0001,
      "loss": 0.1272,
      "step": 3716
    },
    {
      "epoch": 5.574385122975405,
      "grad_norm": 0.19716502726078033,
      "learning_rate": 0.0001,
      "loss": 0.1409,
      "step": 3717
    },
    {
      "epoch": 5.575884823035393,
      "grad_norm": 0.5236884951591492,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 3718
    },
    {
      "epoch": 5.577384523095381,
      "grad_norm": 0.17053380608558655,
      "learning_rate": 0.0001,
      "loss": 0.1455,
      "step": 3719
    },
    {
      "epoch": 5.578884223155369,
      "grad_norm": 0.20523874461650848,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 3720
    },
    {
      "epoch": 5.580383923215357,
      "grad_norm": 0.14792193472385406,
      "learning_rate": 0.0001,
      "loss": 0.1501,
      "step": 3721
    },
    {
      "epoch": 5.581883623275345,
      "grad_norm": 0.18356351554393768,
      "learning_rate": 0.0001,
      "loss": 0.1448,
      "step": 3722
    },
    {
      "epoch": 5.583383323335333,
      "grad_norm": 0.1983959972858429,
      "learning_rate": 0.0001,
      "loss": 0.1526,
      "step": 3723
    },
    {
      "epoch": 5.584883023395321,
      "grad_norm": 0.1929991990327835,
      "learning_rate": 0.0001,
      "loss": 0.1457,
      "step": 3724
    },
    {
      "epoch": 5.5863827234553085,
      "grad_norm": 0.15207192301750183,
      "learning_rate": 0.0001,
      "loss": 0.1467,
      "step": 3725
    },
    {
      "epoch": 5.587882423515297,
      "grad_norm": 0.19046242535114288,
      "learning_rate": 0.0001,
      "loss": 0.1488,
      "step": 3726
    },
    {
      "epoch": 5.589382123575285,
      "grad_norm": 0.17585505545139313,
      "learning_rate": 0.0001,
      "loss": 0.142,
      "step": 3727
    },
    {
      "epoch": 5.590881823635273,
      "grad_norm": 0.19007334113121033,
      "learning_rate": 0.0001,
      "loss": 0.1598,
      "step": 3728
    },
    {
      "epoch": 5.592381523695261,
      "grad_norm": 0.1835678368806839,
      "learning_rate": 0.0001,
      "loss": 0.145,
      "step": 3729
    },
    {
      "epoch": 5.593881223755249,
      "grad_norm": 0.1958809345960617,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3730
    },
    {
      "epoch": 5.595380923815237,
      "grad_norm": 0.16142365336418152,
      "learning_rate": 0.0001,
      "loss": 0.1466,
      "step": 3731
    },
    {
      "epoch": 5.596880623875225,
      "grad_norm": 0.18414555490016937,
      "learning_rate": 0.0001,
      "loss": 0.1617,
      "step": 3732
    },
    {
      "epoch": 5.5983803239352135,
      "grad_norm": 0.17527145147323608,
      "learning_rate": 0.0001,
      "loss": 0.1351,
      "step": 3733
    },
    {
      "epoch": 5.599880023995201,
      "grad_norm": 0.15924204885959625,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 3734
    },
    {
      "epoch": 5.601379724055189,
      "grad_norm": 0.17277301847934723,
      "learning_rate": 0.0001,
      "loss": 0.1445,
      "step": 3735
    },
    {
      "epoch": 5.6028794241151765,
      "grad_norm": 0.14915694296360016,
      "learning_rate": 0.0001,
      "loss": 0.1324,
      "step": 3736
    },
    {
      "epoch": 5.604379124175165,
      "grad_norm": 0.158269464969635,
      "learning_rate": 0.0001,
      "loss": 0.1312,
      "step": 3737
    },
    {
      "epoch": 5.605878824235153,
      "grad_norm": 0.1700136512517929,
      "learning_rate": 0.0001,
      "loss": 0.1442,
      "step": 3738
    },
    {
      "epoch": 5.607378524295141,
      "grad_norm": 0.13610579073429108,
      "learning_rate": 0.0001,
      "loss": 0.1259,
      "step": 3739
    },
    {
      "epoch": 5.608878224355129,
      "grad_norm": 0.16987372934818268,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 3740
    },
    {
      "epoch": 5.610377924415117,
      "grad_norm": 0.17958784103393555,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 3741
    },
    {
      "epoch": 5.611877624475105,
      "grad_norm": 0.1744394600391388,
      "learning_rate": 0.0001,
      "loss": 0.1477,
      "step": 3742
    },
    {
      "epoch": 5.613377324535093,
      "grad_norm": 0.1812705546617508,
      "learning_rate": 0.0001,
      "loss": 0.1508,
      "step": 3743
    },
    {
      "epoch": 5.614877024595081,
      "grad_norm": 0.17213714122772217,
      "learning_rate": 0.0001,
      "loss": 0.1558,
      "step": 3744
    },
    {
      "epoch": 5.616376724655069,
      "grad_norm": 0.16344942152500153,
      "learning_rate": 0.0001,
      "loss": 0.1364,
      "step": 3745
    },
    {
      "epoch": 5.617876424715057,
      "grad_norm": 0.1726977527141571,
      "learning_rate": 0.0001,
      "loss": 0.1431,
      "step": 3746
    },
    {
      "epoch": 5.619376124775045,
      "grad_norm": 0.18086223304271698,
      "learning_rate": 0.0001,
      "loss": 0.1514,
      "step": 3747
    },
    {
      "epoch": 5.620875824835033,
      "grad_norm": 0.1812572032213211,
      "learning_rate": 0.0001,
      "loss": 0.1564,
      "step": 3748
    },
    {
      "epoch": 5.622375524895021,
      "grad_norm": 0.18220268189907074,
      "learning_rate": 0.0001,
      "loss": 0.1325,
      "step": 3749
    },
    {
      "epoch": 5.623875224955009,
      "grad_norm": 0.18974527716636658,
      "learning_rate": 0.0001,
      "loss": 0.1464,
      "step": 3750
    },
    {
      "epoch": 5.625374925014997,
      "grad_norm": 0.15842439234256744,
      "learning_rate": 0.0001,
      "loss": 0.1573,
      "step": 3751
    },
    {
      "epoch": 5.626874625074985,
      "grad_norm": 0.16135448217391968,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 3752
    },
    {
      "epoch": 5.628374325134973,
      "grad_norm": 0.1757531762123108,
      "learning_rate": 0.0001,
      "loss": 0.141,
      "step": 3753
    },
    {
      "epoch": 5.629874025194961,
      "grad_norm": 0.18212474882602692,
      "learning_rate": 0.0001,
      "loss": 0.1432,
      "step": 3754
    },
    {
      "epoch": 5.631373725254949,
      "grad_norm": 0.19091485440731049,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 3755
    },
    {
      "epoch": 5.632873425314937,
      "grad_norm": 0.18402883410453796,
      "learning_rate": 0.0001,
      "loss": 0.1355,
      "step": 3756
    },
    {
      "epoch": 5.634373125374925,
      "grad_norm": 0.1471785306930542,
      "learning_rate": 0.0001,
      "loss": 0.1397,
      "step": 3757
    },
    {
      "epoch": 5.635872825434913,
      "grad_norm": 0.14907123148441315,
      "learning_rate": 0.0001,
      "loss": 0.1376,
      "step": 3758
    },
    {
      "epoch": 5.637372525494901,
      "grad_norm": 0.22205612063407898,
      "learning_rate": 0.0001,
      "loss": 0.1599,
      "step": 3759
    },
    {
      "epoch": 5.638872225554889,
      "grad_norm": 0.21664781868457794,
      "learning_rate": 0.0001,
      "loss": 0.1587,
      "step": 3760
    },
    {
      "epoch": 5.640371925614877,
      "grad_norm": 0.25272873044013977,
      "learning_rate": 0.0001,
      "loss": 0.1564,
      "step": 3761
    },
    {
      "epoch": 5.641871625674865,
      "grad_norm": 0.16184628009796143,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 3762
    },
    {
      "epoch": 5.643371325734853,
      "grad_norm": 0.21377822756767273,
      "learning_rate": 0.0001,
      "loss": 0.1386,
      "step": 3763
    },
    {
      "epoch": 5.644871025794841,
      "grad_norm": 0.1532999575138092,
      "learning_rate": 0.0001,
      "loss": 0.1309,
      "step": 3764
    },
    {
      "epoch": 5.646370725854829,
      "grad_norm": 0.18612124025821686,
      "learning_rate": 0.0001,
      "loss": 0.1491,
      "step": 3765
    },
    {
      "epoch": 5.647870425914817,
      "grad_norm": 0.1814560890197754,
      "learning_rate": 0.0001,
      "loss": 0.1446,
      "step": 3766
    },
    {
      "epoch": 5.649370125974805,
      "grad_norm": 0.17224949598312378,
      "learning_rate": 0.0001,
      "loss": 0.1309,
      "step": 3767
    },
    {
      "epoch": 5.650869826034793,
      "grad_norm": 0.17826199531555176,
      "learning_rate": 0.0001,
      "loss": 0.129,
      "step": 3768
    },
    {
      "epoch": 5.652369526094781,
      "grad_norm": 0.2308717668056488,
      "learning_rate": 0.0001,
      "loss": 0.1572,
      "step": 3769
    },
    {
      "epoch": 5.653869226154769,
      "grad_norm": 0.17238405346870422,
      "learning_rate": 0.0001,
      "loss": 0.1556,
      "step": 3770
    },
    {
      "epoch": 5.6553689262147575,
      "grad_norm": 0.16789720952510834,
      "learning_rate": 0.0001,
      "loss": 0.1362,
      "step": 3771
    },
    {
      "epoch": 5.656868626274745,
      "grad_norm": 0.21682342886924744,
      "learning_rate": 0.0001,
      "loss": 0.1602,
      "step": 3772
    },
    {
      "epoch": 5.658368326334733,
      "grad_norm": 0.19040562212467194,
      "learning_rate": 0.0001,
      "loss": 0.1631,
      "step": 3773
    },
    {
      "epoch": 5.659868026394721,
      "grad_norm": 0.14573049545288086,
      "learning_rate": 0.0001,
      "loss": 0.1402,
      "step": 3774
    },
    {
      "epoch": 5.661367726454709,
      "grad_norm": 0.16925810277462006,
      "learning_rate": 0.0001,
      "loss": 0.1481,
      "step": 3775
    },
    {
      "epoch": 5.662867426514697,
      "grad_norm": 0.16208185255527496,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 3776
    },
    {
      "epoch": 5.664367126574685,
      "grad_norm": 0.18318800628185272,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 3777
    },
    {
      "epoch": 5.665866826634673,
      "grad_norm": 0.17312128841876984,
      "learning_rate": 0.0001,
      "loss": 0.1364,
      "step": 3778
    },
    {
      "epoch": 5.667366526694661,
      "grad_norm": 0.3753882944583893,
      "learning_rate": 0.0001,
      "loss": 0.1336,
      "step": 3779
    },
    {
      "epoch": 5.668866226754649,
      "grad_norm": 0.17500799894332886,
      "learning_rate": 0.0001,
      "loss": 0.1455,
      "step": 3780
    },
    {
      "epoch": 5.670365926814637,
      "grad_norm": 0.1707547903060913,
      "learning_rate": 0.0001,
      "loss": 0.1542,
      "step": 3781
    },
    {
      "epoch": 5.6718656268746255,
      "grad_norm": 0.20797429978847504,
      "learning_rate": 0.0001,
      "loss": 0.1422,
      "step": 3782
    },
    {
      "epoch": 5.673365326934613,
      "grad_norm": 0.2444160282611847,
      "learning_rate": 0.0001,
      "loss": 0.1521,
      "step": 3783
    },
    {
      "epoch": 5.674865026994601,
      "grad_norm": 0.1377435028553009,
      "learning_rate": 0.0001,
      "loss": 0.1466,
      "step": 3784
    },
    {
      "epoch": 5.676364727054589,
      "grad_norm": 0.1732259839773178,
      "learning_rate": 0.0001,
      "loss": 0.1446,
      "step": 3785
    },
    {
      "epoch": 5.677864427114577,
      "grad_norm": 0.1964443176984787,
      "learning_rate": 0.0001,
      "loss": 0.1517,
      "step": 3786
    },
    {
      "epoch": 5.679364127174565,
      "grad_norm": 0.17580470442771912,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 3787
    },
    {
      "epoch": 5.680863827234553,
      "grad_norm": 0.17431819438934326,
      "learning_rate": 0.0001,
      "loss": 0.1524,
      "step": 3788
    },
    {
      "epoch": 5.682363527294541,
      "grad_norm": 0.17134276032447815,
      "learning_rate": 0.0001,
      "loss": 0.1509,
      "step": 3789
    },
    {
      "epoch": 5.683863227354529,
      "grad_norm": 0.17649096250534058,
      "learning_rate": 0.0001,
      "loss": 0.1568,
      "step": 3790
    },
    {
      "epoch": 5.685362927414517,
      "grad_norm": 0.16861198842525482,
      "learning_rate": 0.0001,
      "loss": 0.1445,
      "step": 3791
    },
    {
      "epoch": 5.686862627474505,
      "grad_norm": 0.19180680811405182,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 3792
    },
    {
      "epoch": 5.6883623275344934,
      "grad_norm": 0.14893794059753418,
      "learning_rate": 0.0001,
      "loss": 0.1309,
      "step": 3793
    },
    {
      "epoch": 5.689862027594481,
      "grad_norm": 0.17552371323108673,
      "learning_rate": 0.0001,
      "loss": 0.1416,
      "step": 3794
    },
    {
      "epoch": 5.691361727654469,
      "grad_norm": 0.15806114673614502,
      "learning_rate": 0.0001,
      "loss": 0.1331,
      "step": 3795
    },
    {
      "epoch": 5.692861427714457,
      "grad_norm": 0.16724136471748352,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 3796
    },
    {
      "epoch": 5.694361127774445,
      "grad_norm": 0.18850016593933105,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 3797
    },
    {
      "epoch": 5.695860827834434,
      "grad_norm": 0.19620965421199799,
      "learning_rate": 0.0001,
      "loss": 0.1685,
      "step": 3798
    },
    {
      "epoch": 5.697360527894421,
      "grad_norm": 0.14601866900920868,
      "learning_rate": 0.0001,
      "loss": 0.1383,
      "step": 3799
    },
    {
      "epoch": 5.698860227954409,
      "grad_norm": 0.15487775206565857,
      "learning_rate": 0.0001,
      "loss": 0.1427,
      "step": 3800
    },
    {
      "epoch": 5.7003599280143975,
      "grad_norm": 0.16364319622516632,
      "learning_rate": 0.0001,
      "loss": 0.1498,
      "step": 3801
    },
    {
      "epoch": 5.701859628074385,
      "grad_norm": 0.13682381808757782,
      "learning_rate": 0.0001,
      "loss": 0.1462,
      "step": 3802
    },
    {
      "epoch": 5.703359328134373,
      "grad_norm": 0.16688933968544006,
      "learning_rate": 0.0001,
      "loss": 0.1513,
      "step": 3803
    },
    {
      "epoch": 5.704859028194361,
      "grad_norm": 0.16009977459907532,
      "learning_rate": 0.0001,
      "loss": 0.1373,
      "step": 3804
    },
    {
      "epoch": 5.706358728254349,
      "grad_norm": 0.18846853077411652,
      "learning_rate": 0.0001,
      "loss": 0.1489,
      "step": 3805
    },
    {
      "epoch": 5.707858428314337,
      "grad_norm": 0.17850421369075775,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 3806
    },
    {
      "epoch": 5.709358128374325,
      "grad_norm": 0.17997707426548004,
      "learning_rate": 0.0001,
      "loss": 0.1471,
      "step": 3807
    },
    {
      "epoch": 5.710857828434313,
      "grad_norm": 0.1985587775707245,
      "learning_rate": 0.0001,
      "loss": 0.1519,
      "step": 3808
    },
    {
      "epoch": 5.712357528494302,
      "grad_norm": 0.205923929810524,
      "learning_rate": 0.0001,
      "loss": 0.1357,
      "step": 3809
    },
    {
      "epoch": 5.713857228554289,
      "grad_norm": 0.20961202681064606,
      "learning_rate": 0.0001,
      "loss": 0.1334,
      "step": 3810
    },
    {
      "epoch": 5.715356928614277,
      "grad_norm": 0.2027803361415863,
      "learning_rate": 0.0001,
      "loss": 0.1477,
      "step": 3811
    },
    {
      "epoch": 5.7168566286742655,
      "grad_norm": 0.18954035639762878,
      "learning_rate": 0.0001,
      "loss": 0.1503,
      "step": 3812
    },
    {
      "epoch": 5.718356328734253,
      "grad_norm": 0.1813933551311493,
      "learning_rate": 0.0001,
      "loss": 0.1539,
      "step": 3813
    },
    {
      "epoch": 5.719856028794241,
      "grad_norm": 0.1738854944705963,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 3814
    },
    {
      "epoch": 5.721355728854229,
      "grad_norm": 0.17740398645401,
      "learning_rate": 0.0001,
      "loss": 0.1442,
      "step": 3815
    },
    {
      "epoch": 5.722855428914217,
      "grad_norm": 0.1668136715888977,
      "learning_rate": 0.0001,
      "loss": 0.1538,
      "step": 3816
    },
    {
      "epoch": 5.724355128974205,
      "grad_norm": 0.155501127243042,
      "learning_rate": 0.0001,
      "loss": 0.142,
      "step": 3817
    },
    {
      "epoch": 5.725854829034193,
      "grad_norm": 0.17718331515789032,
      "learning_rate": 0.0001,
      "loss": 0.1471,
      "step": 3818
    },
    {
      "epoch": 5.727354529094181,
      "grad_norm": 0.17754794657230377,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 3819
    },
    {
      "epoch": 5.7288542291541695,
      "grad_norm": 0.17058241367340088,
      "learning_rate": 0.0001,
      "loss": 0.1338,
      "step": 3820
    },
    {
      "epoch": 5.730353929214157,
      "grad_norm": 0.16950270533561707,
      "learning_rate": 0.0001,
      "loss": 0.147,
      "step": 3821
    },
    {
      "epoch": 5.731853629274145,
      "grad_norm": 0.16474848985671997,
      "learning_rate": 0.0001,
      "loss": 0.1384,
      "step": 3822
    },
    {
      "epoch": 5.733353329334133,
      "grad_norm": 0.15959425270557404,
      "learning_rate": 0.0001,
      "loss": 0.1405,
      "step": 3823
    },
    {
      "epoch": 5.734853029394121,
      "grad_norm": 0.15867416560649872,
      "learning_rate": 0.0001,
      "loss": 0.1359,
      "step": 3824
    },
    {
      "epoch": 5.736352729454109,
      "grad_norm": 0.14605286717414856,
      "learning_rate": 0.0001,
      "loss": 0.1277,
      "step": 3825
    },
    {
      "epoch": 5.737852429514097,
      "grad_norm": 0.1838330179452896,
      "learning_rate": 0.0001,
      "loss": 0.149,
      "step": 3826
    },
    {
      "epoch": 5.739352129574085,
      "grad_norm": 0.20796890556812286,
      "learning_rate": 0.0001,
      "loss": 0.156,
      "step": 3827
    },
    {
      "epoch": 5.740851829634073,
      "grad_norm": 0.16993288695812225,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 3828
    },
    {
      "epoch": 5.742351529694061,
      "grad_norm": 0.1604541838169098,
      "learning_rate": 0.0001,
      "loss": 0.1492,
      "step": 3829
    },
    {
      "epoch": 5.743851229754049,
      "grad_norm": 0.18884404003620148,
      "learning_rate": 0.0001,
      "loss": 0.154,
      "step": 3830
    },
    {
      "epoch": 5.7453509298140375,
      "grad_norm": 0.15992297232151031,
      "learning_rate": 0.0001,
      "loss": 0.1577,
      "step": 3831
    },
    {
      "epoch": 5.746850629874025,
      "grad_norm": 0.17635884881019592,
      "learning_rate": 0.0001,
      "loss": 0.1326,
      "step": 3832
    },
    {
      "epoch": 5.748350329934013,
      "grad_norm": 0.15559490025043488,
      "learning_rate": 0.0001,
      "loss": 0.1438,
      "step": 3833
    },
    {
      "epoch": 5.749850029994001,
      "grad_norm": 0.16822850704193115,
      "learning_rate": 0.0001,
      "loss": 0.1424,
      "step": 3834
    },
    {
      "epoch": 5.751349730053989,
      "grad_norm": 0.16392865777015686,
      "learning_rate": 0.0001,
      "loss": 0.1343,
      "step": 3835
    },
    {
      "epoch": 5.752849430113978,
      "grad_norm": 0.1595071256160736,
      "learning_rate": 0.0001,
      "loss": 0.1419,
      "step": 3836
    },
    {
      "epoch": 5.754349130173965,
      "grad_norm": 0.16776666045188904,
      "learning_rate": 0.0001,
      "loss": 0.1502,
      "step": 3837
    },
    {
      "epoch": 5.755848830233953,
      "grad_norm": 0.16151192784309387,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 3838
    },
    {
      "epoch": 5.757348530293942,
      "grad_norm": 0.16537603735923767,
      "learning_rate": 0.0001,
      "loss": 0.1433,
      "step": 3839
    },
    {
      "epoch": 5.758848230353929,
      "grad_norm": 0.15579397976398468,
      "learning_rate": 0.0001,
      "loss": 0.1412,
      "step": 3840
    },
    {
      "epoch": 5.760347930413917,
      "grad_norm": 0.15759901702404022,
      "learning_rate": 0.0001,
      "loss": 0.1363,
      "step": 3841
    },
    {
      "epoch": 5.7618476304739055,
      "grad_norm": 0.2068593055009842,
      "learning_rate": 0.0001,
      "loss": 0.1583,
      "step": 3842
    },
    {
      "epoch": 5.763347330533893,
      "grad_norm": 0.18059410154819489,
      "learning_rate": 0.0001,
      "loss": 0.1423,
      "step": 3843
    },
    {
      "epoch": 5.764847030593881,
      "grad_norm": 0.17656825482845306,
      "learning_rate": 0.0001,
      "loss": 0.1525,
      "step": 3844
    },
    {
      "epoch": 5.766346730653869,
      "grad_norm": 0.18277963995933533,
      "learning_rate": 0.0001,
      "loss": 0.167,
      "step": 3845
    },
    {
      "epoch": 5.767846430713857,
      "grad_norm": 0.14630557596683502,
      "learning_rate": 0.0001,
      "loss": 0.1311,
      "step": 3846
    },
    {
      "epoch": 5.769346130773846,
      "grad_norm": 0.1741430163383484,
      "learning_rate": 0.0001,
      "loss": 0.1534,
      "step": 3847
    },
    {
      "epoch": 5.770845830833833,
      "grad_norm": 0.16836389899253845,
      "learning_rate": 0.0001,
      "loss": 0.1379,
      "step": 3848
    },
    {
      "epoch": 5.772345530893821,
      "grad_norm": 0.19033119082450867,
      "learning_rate": 0.0001,
      "loss": 0.1531,
      "step": 3849
    },
    {
      "epoch": 5.7738452309538095,
      "grad_norm": 0.16175632178783417,
      "learning_rate": 0.0001,
      "loss": 0.1381,
      "step": 3850
    },
    {
      "epoch": 5.775344931013797,
      "grad_norm": 0.17406918108463287,
      "learning_rate": 0.0001,
      "loss": 0.1538,
      "step": 3851
    },
    {
      "epoch": 5.776844631073785,
      "grad_norm": 0.22481359541416168,
      "learning_rate": 0.0001,
      "loss": 0.1463,
      "step": 3852
    },
    {
      "epoch": 5.778344331133773,
      "grad_norm": 0.17967647314071655,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 3853
    },
    {
      "epoch": 5.779844031193761,
      "grad_norm": 0.16039146482944489,
      "learning_rate": 0.0001,
      "loss": 0.1441,
      "step": 3854
    },
    {
      "epoch": 5.781343731253749,
      "grad_norm": 0.17573969066143036,
      "learning_rate": 0.0001,
      "loss": 0.1645,
      "step": 3855
    },
    {
      "epoch": 5.782843431313737,
      "grad_norm": 0.14662957191467285,
      "learning_rate": 0.0001,
      "loss": 0.1443,
      "step": 3856
    },
    {
      "epoch": 5.784343131373725,
      "grad_norm": 0.19965022802352905,
      "learning_rate": 0.0001,
      "loss": 0.1496,
      "step": 3857
    },
    {
      "epoch": 5.785842831433714,
      "grad_norm": 0.1458662748336792,
      "learning_rate": 0.0001,
      "loss": 0.1453,
      "step": 3858
    },
    {
      "epoch": 5.787342531493701,
      "grad_norm": 0.17340382933616638,
      "learning_rate": 0.0001,
      "loss": 0.1329,
      "step": 3859
    },
    {
      "epoch": 5.788842231553689,
      "grad_norm": 0.17260977625846863,
      "learning_rate": 0.0001,
      "loss": 0.1365,
      "step": 3860
    },
    {
      "epoch": 5.7903419316136775,
      "grad_norm": 0.16080211102962494,
      "learning_rate": 0.0001,
      "loss": 0.1323,
      "step": 3861
    },
    {
      "epoch": 5.791841631673665,
      "grad_norm": 0.16374018788337708,
      "learning_rate": 0.0001,
      "loss": 0.1289,
      "step": 3862
    },
    {
      "epoch": 5.793341331733654,
      "grad_norm": 0.19174423813819885,
      "learning_rate": 0.0001,
      "loss": 0.135,
      "step": 3863
    },
    {
      "epoch": 5.794841031793641,
      "grad_norm": 0.1619521975517273,
      "learning_rate": 0.0001,
      "loss": 0.1381,
      "step": 3864
    },
    {
      "epoch": 5.796340731853629,
      "grad_norm": 0.16688546538352966,
      "learning_rate": 0.0001,
      "loss": 0.1347,
      "step": 3865
    },
    {
      "epoch": 5.797840431913618,
      "grad_norm": 0.1836840659379959,
      "learning_rate": 0.0001,
      "loss": 0.1536,
      "step": 3866
    },
    {
      "epoch": 5.799340131973605,
      "grad_norm": 0.19097110629081726,
      "learning_rate": 0.0001,
      "loss": 0.1515,
      "step": 3867
    },
    {
      "epoch": 5.800839832033593,
      "grad_norm": 0.18474532663822174,
      "learning_rate": 0.0001,
      "loss": 0.1622,
      "step": 3868
    },
    {
      "epoch": 5.8023395320935816,
      "grad_norm": 0.20446428656578064,
      "learning_rate": 0.0001,
      "loss": 0.1467,
      "step": 3869
    },
    {
      "epoch": 5.803839232153569,
      "grad_norm": 0.16912584006786346,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 3870
    },
    {
      "epoch": 5.805338932213557,
      "grad_norm": 0.16553035378456116,
      "learning_rate": 0.0001,
      "loss": 0.1428,
      "step": 3871
    },
    {
      "epoch": 5.8068386322735455,
      "grad_norm": 0.17781035602092743,
      "learning_rate": 0.0001,
      "loss": 0.1543,
      "step": 3872
    },
    {
      "epoch": 5.808338332333533,
      "grad_norm": 0.14559917151927948,
      "learning_rate": 0.0001,
      "loss": 0.15,
      "step": 3873
    },
    {
      "epoch": 5.809838032393522,
      "grad_norm": 0.18717123568058014,
      "learning_rate": 0.0001,
      "loss": 0.143,
      "step": 3874
    },
    {
      "epoch": 5.811337732453509,
      "grad_norm": 0.16992270946502686,
      "learning_rate": 0.0001,
      "loss": 0.1461,
      "step": 3875
    },
    {
      "epoch": 5.812837432513497,
      "grad_norm": 0.15502993762493134,
      "learning_rate": 0.0001,
      "loss": 0.1305,
      "step": 3876
    },
    {
      "epoch": 5.814337132573486,
      "grad_norm": 0.17690704762935638,
      "learning_rate": 0.0001,
      "loss": 0.1481,
      "step": 3877
    },
    {
      "epoch": 5.815836832633473,
      "grad_norm": 0.18536102771759033,
      "learning_rate": 0.0001,
      "loss": 0.1485,
      "step": 3878
    },
    {
      "epoch": 5.817336532693461,
      "grad_norm": 0.20706187188625336,
      "learning_rate": 0.0001,
      "loss": 0.1654,
      "step": 3879
    },
    {
      "epoch": 5.8188362327534495,
      "grad_norm": 0.16409002244472504,
      "learning_rate": 0.0001,
      "loss": 0.1563,
      "step": 3880
    },
    {
      "epoch": 5.820335932813437,
      "grad_norm": 0.1478748768568039,
      "learning_rate": 0.0001,
      "loss": 0.1256,
      "step": 3881
    },
    {
      "epoch": 5.821835632873425,
      "grad_norm": 0.17027390003204346,
      "learning_rate": 0.0001,
      "loss": 0.1401,
      "step": 3882
    },
    {
      "epoch": 5.823335332933413,
      "grad_norm": 0.15712188184261322,
      "learning_rate": 0.0001,
      "loss": 0.1403,
      "step": 3883
    },
    {
      "epoch": 5.824835032993401,
      "grad_norm": 0.17244666814804077,
      "learning_rate": 0.0001,
      "loss": 0.1512,
      "step": 3884
    },
    {
      "epoch": 5.82633473305339,
      "grad_norm": 0.1643012911081314,
      "learning_rate": 0.0001,
      "loss": 0.1431,
      "step": 3885
    },
    {
      "epoch": 5.827834433113377,
      "grad_norm": 0.17387713491916656,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 3886
    },
    {
      "epoch": 5.829334133173365,
      "grad_norm": 0.2161315679550171,
      "learning_rate": 0.0001,
      "loss": 0.1566,
      "step": 3887
    },
    {
      "epoch": 5.830833833233354,
      "grad_norm": 0.176712304353714,
      "learning_rate": 0.0001,
      "loss": 0.1524,
      "step": 3888
    },
    {
      "epoch": 5.832333533293341,
      "grad_norm": 0.1771536022424698,
      "learning_rate": 0.0001,
      "loss": 0.1391,
      "step": 3889
    },
    {
      "epoch": 5.83383323335333,
      "grad_norm": 0.17431640625,
      "learning_rate": 0.0001,
      "loss": 0.1438,
      "step": 3890
    },
    {
      "epoch": 5.8353329334133175,
      "grad_norm": 0.19263243675231934,
      "learning_rate": 0.0001,
      "loss": 0.1667,
      "step": 3891
    },
    {
      "epoch": 5.836832633473305,
      "grad_norm": 0.18575601279735565,
      "learning_rate": 0.0001,
      "loss": 0.1548,
      "step": 3892
    },
    {
      "epoch": 5.838332333533294,
      "grad_norm": 0.16382338106632233,
      "learning_rate": 0.0001,
      "loss": 0.1487,
      "step": 3893
    },
    {
      "epoch": 5.839832033593281,
      "grad_norm": 0.1617845594882965,
      "learning_rate": 0.0001,
      "loss": 0.1334,
      "step": 3894
    },
    {
      "epoch": 5.841331733653269,
      "grad_norm": 0.1843155324459076,
      "learning_rate": 0.0001,
      "loss": 0.1287,
      "step": 3895
    },
    {
      "epoch": 5.842831433713258,
      "grad_norm": 0.15745018422603607,
      "learning_rate": 0.0001,
      "loss": 0.1528,
      "step": 3896
    },
    {
      "epoch": 5.844331133773245,
      "grad_norm": 0.17578168213367462,
      "learning_rate": 0.0001,
      "loss": 0.1518,
      "step": 3897
    },
    {
      "epoch": 5.845830833833233,
      "grad_norm": 0.1662868708372116,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 3898
    },
    {
      "epoch": 5.8473305338932215,
      "grad_norm": 0.15856143832206726,
      "learning_rate": 0.0001,
      "loss": 0.1496,
      "step": 3899
    },
    {
      "epoch": 5.848830233953209,
      "grad_norm": 0.2136131376028061,
      "learning_rate": 0.0001,
      "loss": 0.1632,
      "step": 3900
    },
    {
      "epoch": 5.850329934013198,
      "grad_norm": 0.15200704336166382,
      "learning_rate": 0.0001,
      "loss": 0.1442,
      "step": 3901
    },
    {
      "epoch": 5.8518296340731855,
      "grad_norm": 0.1591416299343109,
      "learning_rate": 0.0001,
      "loss": 0.1332,
      "step": 3902
    },
    {
      "epoch": 5.853329334133173,
      "grad_norm": 0.14612792432308197,
      "learning_rate": 0.0001,
      "loss": 0.1419,
      "step": 3903
    },
    {
      "epoch": 5.854829034193162,
      "grad_norm": 0.16293753683567047,
      "learning_rate": 0.0001,
      "loss": 0.15,
      "step": 3904
    },
    {
      "epoch": 5.856328734253149,
      "grad_norm": 0.1682143211364746,
      "learning_rate": 0.0001,
      "loss": 0.1347,
      "step": 3905
    },
    {
      "epoch": 5.857828434313137,
      "grad_norm": 0.15928557515144348,
      "learning_rate": 0.0001,
      "loss": 0.1419,
      "step": 3906
    },
    {
      "epoch": 5.859328134373126,
      "grad_norm": 0.135336771607399,
      "learning_rate": 0.0001,
      "loss": 0.1372,
      "step": 3907
    },
    {
      "epoch": 5.860827834433113,
      "grad_norm": 0.15402378141880035,
      "learning_rate": 0.0001,
      "loss": 0.1271,
      "step": 3908
    },
    {
      "epoch": 5.862327534493101,
      "grad_norm": 0.16895805299282074,
      "learning_rate": 0.0001,
      "loss": 0.1422,
      "step": 3909
    },
    {
      "epoch": 5.8638272345530895,
      "grad_norm": 0.1684839129447937,
      "learning_rate": 0.0001,
      "loss": 0.1474,
      "step": 3910
    },
    {
      "epoch": 5.865326934613077,
      "grad_norm": 0.22070933878421783,
      "learning_rate": 0.0001,
      "loss": 0.1459,
      "step": 3911
    },
    {
      "epoch": 5.866826634673066,
      "grad_norm": 0.20166641473770142,
      "learning_rate": 0.0001,
      "loss": 0.1673,
      "step": 3912
    },
    {
      "epoch": 5.868326334733053,
      "grad_norm": 0.1568128615617752,
      "learning_rate": 0.0001,
      "loss": 0.138,
      "step": 3913
    },
    {
      "epoch": 5.869826034793041,
      "grad_norm": 0.18630266189575195,
      "learning_rate": 0.0001,
      "loss": 0.1549,
      "step": 3914
    },
    {
      "epoch": 5.87132573485303,
      "grad_norm": 0.1547064483165741,
      "learning_rate": 0.0001,
      "loss": 0.1393,
      "step": 3915
    },
    {
      "epoch": 5.872825434913017,
      "grad_norm": 0.16008137166500092,
      "learning_rate": 0.0001,
      "loss": 0.1341,
      "step": 3916
    },
    {
      "epoch": 5.874325134973005,
      "grad_norm": 0.17886586487293243,
      "learning_rate": 0.0001,
      "loss": 0.1608,
      "step": 3917
    },
    {
      "epoch": 5.875824835032994,
      "grad_norm": 0.15927226841449738,
      "learning_rate": 0.0001,
      "loss": 0.1456,
      "step": 3918
    },
    {
      "epoch": 5.877324535092981,
      "grad_norm": 0.18888376653194427,
      "learning_rate": 0.0001,
      "loss": 0.1546,
      "step": 3919
    },
    {
      "epoch": 5.878824235152969,
      "grad_norm": 0.1696632206439972,
      "learning_rate": 0.0001,
      "loss": 0.1457,
      "step": 3920
    },
    {
      "epoch": 5.8803239352129575,
      "grad_norm": 0.1653536856174469,
      "learning_rate": 0.0001,
      "loss": 0.1482,
      "step": 3921
    },
    {
      "epoch": 5.881823635272945,
      "grad_norm": 0.1552998423576355,
      "learning_rate": 0.0001,
      "loss": 0.1518,
      "step": 3922
    },
    {
      "epoch": 5.883323335332934,
      "grad_norm": 0.16457222402095795,
      "learning_rate": 0.0001,
      "loss": 0.1404,
      "step": 3923
    },
    {
      "epoch": 5.884823035392921,
      "grad_norm": 0.16244284808635712,
      "learning_rate": 0.0001,
      "loss": 0.1457,
      "step": 3924
    },
    {
      "epoch": 5.886322735452909,
      "grad_norm": 0.19880712032318115,
      "learning_rate": 0.0001,
      "loss": 0.1472,
      "step": 3925
    },
    {
      "epoch": 5.887822435512898,
      "grad_norm": 0.1621226668357849,
      "learning_rate": 0.0001,
      "loss": 0.1498,
      "step": 3926
    },
    {
      "epoch": 5.889322135572885,
      "grad_norm": 0.16992489993572235,
      "learning_rate": 0.0001,
      "loss": 0.1216,
      "step": 3927
    },
    {
      "epoch": 5.890821835632874,
      "grad_norm": 0.17324186861515045,
      "learning_rate": 0.0001,
      "loss": 0.1426,
      "step": 3928
    },
    {
      "epoch": 5.8923215356928615,
      "grad_norm": 0.15436115860939026,
      "learning_rate": 0.0001,
      "loss": 0.1499,
      "step": 3929
    },
    {
      "epoch": 5.893821235752849,
      "grad_norm": 0.18091309070587158,
      "learning_rate": 0.0001,
      "loss": 0.141,
      "step": 3930
    },
    {
      "epoch": 5.895320935812838,
      "grad_norm": 0.18047019839286804,
      "learning_rate": 0.0001,
      "loss": 0.1445,
      "step": 3931
    },
    {
      "epoch": 5.8968206358728255,
      "grad_norm": 0.15805289149284363,
      "learning_rate": 0.0001,
      "loss": 0.1408,
      "step": 3932
    },
    {
      "epoch": 5.898320335932813,
      "grad_norm": 0.16709743440151215,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 3933
    },
    {
      "epoch": 5.899820035992802,
      "grad_norm": 0.176613911986351,
      "learning_rate": 0.0001,
      "loss": 0.153,
      "step": 3934
    },
    {
      "epoch": 5.901319736052789,
      "grad_norm": 0.1641222983598709,
      "learning_rate": 0.0001,
      "loss": 0.1339,
      "step": 3935
    },
    {
      "epoch": 5.902819436112777,
      "grad_norm": 0.16268375515937805,
      "learning_rate": 0.0001,
      "loss": 0.1473,
      "step": 3936
    },
    {
      "epoch": 5.904319136172766,
      "grad_norm": 0.1624862551689148,
      "learning_rate": 0.0001,
      "loss": 0.1463,
      "step": 3937
    },
    {
      "epoch": 5.905818836232753,
      "grad_norm": 0.17090347409248352,
      "learning_rate": 0.0001,
      "loss": 0.1515,
      "step": 3938
    },
    {
      "epoch": 5.907318536292742,
      "grad_norm": 0.18664847314357758,
      "learning_rate": 0.0001,
      "loss": 0.148,
      "step": 3939
    },
    {
      "epoch": 5.9088182363527295,
      "grad_norm": 0.19226138293743134,
      "learning_rate": 0.0001,
      "loss": 0.1567,
      "step": 3940
    },
    {
      "epoch": 5.910317936412717,
      "grad_norm": 0.1779428869485855,
      "learning_rate": 0.0001,
      "loss": 0.1285,
      "step": 3941
    },
    {
      "epoch": 5.911817636472706,
      "grad_norm": 0.1573622077703476,
      "learning_rate": 0.0001,
      "loss": 0.1373,
      "step": 3942
    },
    {
      "epoch": 5.913317336532693,
      "grad_norm": 0.19878076016902924,
      "learning_rate": 0.0001,
      "loss": 0.1555,
      "step": 3943
    },
    {
      "epoch": 5.914817036592681,
      "grad_norm": 0.16578495502471924,
      "learning_rate": 0.0001,
      "loss": 0.1552,
      "step": 3944
    },
    {
      "epoch": 5.91631673665267,
      "grad_norm": 0.170335590839386,
      "learning_rate": 0.0001,
      "loss": 0.141,
      "step": 3945
    },
    {
      "epoch": 5.917816436712657,
      "grad_norm": 0.1656787246465683,
      "learning_rate": 0.0001,
      "loss": 0.137,
      "step": 3946
    },
    {
      "epoch": 5.919316136772645,
      "grad_norm": 0.16857850551605225,
      "learning_rate": 0.0001,
      "loss": 0.1501,
      "step": 3947
    },
    {
      "epoch": 5.920815836832634,
      "grad_norm": 0.15726563334465027,
      "learning_rate": 0.0001,
      "loss": 0.1457,
      "step": 3948
    },
    {
      "epoch": 5.922315536892621,
      "grad_norm": 0.16019296646118164,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 3949
    },
    {
      "epoch": 5.92381523695261,
      "grad_norm": 0.1669977307319641,
      "learning_rate": 0.0001,
      "loss": 0.132,
      "step": 3950
    },
    {
      "epoch": 5.9253149370125975,
      "grad_norm": 0.1734427660703659,
      "learning_rate": 0.0001,
      "loss": 0.1489,
      "step": 3951
    },
    {
      "epoch": 5.926814637072585,
      "grad_norm": 0.1693892776966095,
      "learning_rate": 0.0001,
      "loss": 0.1351,
      "step": 3952
    },
    {
      "epoch": 5.928314337132574,
      "grad_norm": 0.17785467207431793,
      "learning_rate": 0.0001,
      "loss": 0.1497,
      "step": 3953
    },
    {
      "epoch": 5.929814037192561,
      "grad_norm": 0.16762696206569672,
      "learning_rate": 0.0001,
      "loss": 0.1476,
      "step": 3954
    },
    {
      "epoch": 5.93131373725255,
      "grad_norm": 0.1728770136833191,
      "learning_rate": 0.0001,
      "loss": 0.1469,
      "step": 3955
    },
    {
      "epoch": 5.932813437312538,
      "grad_norm": 0.18471898138523102,
      "learning_rate": 0.0001,
      "loss": 0.1582,
      "step": 3956
    },
    {
      "epoch": 5.934313137372525,
      "grad_norm": 0.19197101891040802,
      "learning_rate": 0.0001,
      "loss": 0.1332,
      "step": 3957
    },
    {
      "epoch": 5.935812837432514,
      "grad_norm": 0.16972507536411285,
      "learning_rate": 0.0001,
      "loss": 0.1391,
      "step": 3958
    },
    {
      "epoch": 5.9373125374925015,
      "grad_norm": 0.17815238237380981,
      "learning_rate": 0.0001,
      "loss": 0.1564,
      "step": 3959
    },
    {
      "epoch": 5.938812237552489,
      "grad_norm": 0.1684286743402481,
      "learning_rate": 0.0001,
      "loss": 0.1422,
      "step": 3960
    },
    {
      "epoch": 5.940311937612478,
      "grad_norm": 0.19472070038318634,
      "learning_rate": 0.0001,
      "loss": 0.1516,
      "step": 3961
    },
    {
      "epoch": 5.9418116376724655,
      "grad_norm": 0.15375441312789917,
      "learning_rate": 0.0001,
      "loss": 0.1373,
      "step": 3962
    },
    {
      "epoch": 5.943311337732453,
      "grad_norm": 0.16758646070957184,
      "learning_rate": 0.0001,
      "loss": 0.1421,
      "step": 3963
    },
    {
      "epoch": 5.944811037792442,
      "grad_norm": 0.1934972107410431,
      "learning_rate": 0.0001,
      "loss": 0.1533,
      "step": 3964
    },
    {
      "epoch": 5.946310737852429,
      "grad_norm": 0.16834713518619537,
      "learning_rate": 0.0001,
      "loss": 0.1417,
      "step": 3965
    },
    {
      "epoch": 5.947810437912418,
      "grad_norm": 0.18141509592533112,
      "learning_rate": 0.0001,
      "loss": 0.1569,
      "step": 3966
    },
    {
      "epoch": 5.949310137972406,
      "grad_norm": 0.15809860825538635,
      "learning_rate": 0.0001,
      "loss": 0.1283,
      "step": 3967
    },
    {
      "epoch": 5.950809838032393,
      "grad_norm": 0.13780921697616577,
      "learning_rate": 0.0001,
      "loss": 0.1236,
      "step": 3968
    },
    {
      "epoch": 5.952309538092382,
      "grad_norm": 0.15562991797924042,
      "learning_rate": 0.0001,
      "loss": 0.1431,
      "step": 3969
    },
    {
      "epoch": 5.9538092381523695,
      "grad_norm": 0.1669428050518036,
      "learning_rate": 0.0001,
      "loss": 0.158,
      "step": 3970
    },
    {
      "epoch": 5.955308938212357,
      "grad_norm": 0.16740576922893524,
      "learning_rate": 0.0001,
      "loss": 0.1554,
      "step": 3971
    },
    {
      "epoch": 5.956808638272346,
      "grad_norm": 0.16946643590927124,
      "learning_rate": 0.0001,
      "loss": 0.1411,
      "step": 3972
    },
    {
      "epoch": 5.958308338332333,
      "grad_norm": 0.15034803748130798,
      "learning_rate": 0.0001,
      "loss": 0.1361,
      "step": 3973
    },
    {
      "epoch": 5.959808038392321,
      "grad_norm": 0.169907346367836,
      "learning_rate": 0.0001,
      "loss": 0.1338,
      "step": 3974
    },
    {
      "epoch": 5.96130773845231,
      "grad_norm": 0.17643867433071136,
      "learning_rate": 0.0001,
      "loss": 0.1589,
      "step": 3975
    },
    {
      "epoch": 5.962807438512297,
      "grad_norm": 0.16442766785621643,
      "learning_rate": 0.0001,
      "loss": 0.1265,
      "step": 3976
    },
    {
      "epoch": 5.964307138572286,
      "grad_norm": 0.18715783953666687,
      "learning_rate": 0.0001,
      "loss": 0.142,
      "step": 3977
    },
    {
      "epoch": 5.965806838632274,
      "grad_norm": 0.1805892139673233,
      "learning_rate": 0.0001,
      "loss": 0.1475,
      "step": 3978
    },
    {
      "epoch": 5.967306538692261,
      "grad_norm": 0.15461428463459015,
      "learning_rate": 0.0001,
      "loss": 0.1382,
      "step": 3979
    },
    {
      "epoch": 5.96880623875225,
      "grad_norm": 0.168745756149292,
      "learning_rate": 0.0001,
      "loss": 0.1467,
      "step": 3980
    },
    {
      "epoch": 5.9703059388122375,
      "grad_norm": 0.1961381882429123,
      "learning_rate": 0.0001,
      "loss": 0.1646,
      "step": 3981
    },
    {
      "epoch": 5.971805638872226,
      "grad_norm": 0.18477289378643036,
      "learning_rate": 0.0001,
      "loss": 0.1493,
      "step": 3982
    },
    {
      "epoch": 5.973305338932214,
      "grad_norm": 0.18399150669574738,
      "learning_rate": 0.0001,
      "loss": 0.1636,
      "step": 3983
    },
    {
      "epoch": 5.974805038992201,
      "grad_norm": 0.1656281054019928,
      "learning_rate": 0.0001,
      "loss": 0.157,
      "step": 3984
    },
    {
      "epoch": 5.976304739052189,
      "grad_norm": 0.14565034210681915,
      "learning_rate": 0.0001,
      "loss": 0.1389,
      "step": 3985
    },
    {
      "epoch": 5.977804439112178,
      "grad_norm": 0.19006168842315674,
      "learning_rate": 0.0001,
      "loss": 0.135,
      "step": 3986
    },
    {
      "epoch": 5.979304139172165,
      "grad_norm": 0.16386066377162933,
      "learning_rate": 0.0001,
      "loss": 0.1419,
      "step": 3987
    },
    {
      "epoch": 5.980803839232154,
      "grad_norm": 0.1682685911655426,
      "learning_rate": 0.0001,
      "loss": 0.1532,
      "step": 3988
    },
    {
      "epoch": 5.9823035392921415,
      "grad_norm": 0.18944555521011353,
      "learning_rate": 0.0001,
      "loss": 0.1559,
      "step": 3989
    },
    {
      "epoch": 5.983803239352129,
      "grad_norm": 0.17107383906841278,
      "learning_rate": 0.0001,
      "loss": 0.1444,
      "step": 3990
    },
    {
      "epoch": 5.985302939412118,
      "grad_norm": 0.16868190467357635,
      "learning_rate": 0.0001,
      "loss": 0.1445,
      "step": 3991
    },
    {
      "epoch": 5.9868026394721054,
      "grad_norm": 0.16617096960544586,
      "learning_rate": 0.0001,
      "loss": 0.1565,
      "step": 3992
    },
    {
      "epoch": 5.988302339532094,
      "grad_norm": 0.15154650807380676,
      "learning_rate": 0.0001,
      "loss": 0.1558,
      "step": 3993
    },
    {
      "epoch": 5.989802039592082,
      "grad_norm": 0.15205660462379456,
      "learning_rate": 0.0001,
      "loss": 0.1382,
      "step": 3994
    },
    {
      "epoch": 5.991301739652069,
      "grad_norm": 0.1904006153345108,
      "learning_rate": 0.0001,
      "loss": 0.1506,
      "step": 3995
    },
    {
      "epoch": 5.992801439712058,
      "grad_norm": 0.19600343704223633,
      "learning_rate": 0.0001,
      "loss": 0.1394,
      "step": 3996
    },
    {
      "epoch": 5.992801439712058,
      "step": 3996,
      "total_flos": 7.165233831178404e+18,
      "train_loss": 0.17921179475950766,
      "train_runtime": 65855.0552,
      "train_samples_per_second": 1.822,
      "train_steps_per_second": 0.061
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 3996,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 500,
  "total_flos": 7.165233831178404e+18,
  "train_batch_size": 6,
  "trial_name": null,
  "trial_params": null
}