{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.08866558297620807,
  "eval_steps": 25,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0011822077730161075,
      "grad_norm": 0.31233876943588257,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 10.3598,
      "step": 1
    },
    {
      "epoch": 0.0011822077730161075,
      "eval_loss": 10.361650466918945,
      "eval_runtime": 11.0141,
      "eval_samples_per_second": 64.735,
      "eval_steps_per_second": 32.413,
      "step": 1
    },
    {
      "epoch": 0.002364415546032215,
      "grad_norm": 0.31235775351524353,
      "learning_rate": 6.666666666666667e-05,
      "loss": 10.3605,
      "step": 2
    },
    {
      "epoch": 0.0035466233190483225,
      "grad_norm": 0.3113889694213867,
      "learning_rate": 0.0001,
      "loss": 10.3606,
      "step": 3
    },
    {
      "epoch": 0.00472883109206443,
      "grad_norm": 0.3205099105834961,
      "learning_rate": 9.99524110790929e-05,
      "loss": 10.3589,
      "step": 4
    },
    {
      "epoch": 0.005911038865080538,
      "grad_norm": 0.3232390284538269,
      "learning_rate": 9.980973490458728e-05,
      "loss": 10.3573,
      "step": 5
    },
    {
      "epoch": 0.007093246638096645,
      "grad_norm": 0.3244328498840332,
      "learning_rate": 9.957224306869053e-05,
      "loss": 10.3568,
      "step": 6
    },
    {
      "epoch": 0.008275454411112753,
      "grad_norm": 0.34725359082221985,
      "learning_rate": 9.924038765061042e-05,
      "loss": 10.3561,
      "step": 7
    },
    {
      "epoch": 0.00945766218412886,
      "grad_norm": 0.345149427652359,
      "learning_rate": 9.881480035599667e-05,
      "loss": 10.3547,
      "step": 8
    },
    {
      "epoch": 0.010639869957144969,
      "grad_norm": 0.3562554717063904,
      "learning_rate": 9.829629131445342e-05,
      "loss": 10.3526,
      "step": 9
    },
    {
      "epoch": 0.011822077730161076,
      "grad_norm": 0.34926849603652954,
      "learning_rate": 9.768584753741134e-05,
      "loss": 10.3525,
      "step": 10
    },
    {
      "epoch": 0.013004285503177183,
      "grad_norm": 0.3503018021583557,
      "learning_rate": 9.698463103929542e-05,
      "loss": 10.3494,
      "step": 11
    },
    {
      "epoch": 0.01418649327619329,
      "grad_norm": 0.3790827989578247,
      "learning_rate": 9.619397662556435e-05,
      "loss": 10.349,
      "step": 12
    },
    {
      "epoch": 0.015368701049209399,
      "grad_norm": 0.39984145760536194,
      "learning_rate": 9.53153893518325e-05,
      "loss": 10.3486,
      "step": 13
    },
    {
      "epoch": 0.016550908822225506,
      "grad_norm": 0.4013986587524414,
      "learning_rate": 9.435054165891109e-05,
      "loss": 10.3477,
      "step": 14
    },
    {
      "epoch": 0.017733116595241613,
      "grad_norm": 0.41466209292411804,
      "learning_rate": 9.330127018922194e-05,
      "loss": 10.3452,
      "step": 15
    },
    {
      "epoch": 0.01891532436825772,
      "grad_norm": 0.43259164690971375,
      "learning_rate": 9.21695722906443e-05,
      "loss": 10.3432,
      "step": 16
    },
    {
      "epoch": 0.020097532141273827,
      "grad_norm": 0.43831247091293335,
      "learning_rate": 9.09576022144496e-05,
      "loss": 10.3406,
      "step": 17
    },
    {
      "epoch": 0.021279739914289938,
      "grad_norm": 0.42912402749061584,
      "learning_rate": 8.966766701456177e-05,
      "loss": 10.341,
      "step": 18
    },
    {
      "epoch": 0.022461947687306045,
      "grad_norm": 0.44939541816711426,
      "learning_rate": 8.83022221559489e-05,
      "loss": 10.3378,
      "step": 19
    },
    {
      "epoch": 0.023644155460322152,
      "grad_norm": 0.4581325948238373,
      "learning_rate": 8.68638668405062e-05,
      "loss": 10.3378,
      "step": 20
    },
    {
      "epoch": 0.02482636323333826,
      "grad_norm": 0.4491845965385437,
      "learning_rate": 8.535533905932738e-05,
      "loss": 10.3363,
      "step": 21
    },
    {
      "epoch": 0.026008571006354366,
      "grad_norm": 0.46300578117370605,
      "learning_rate": 8.377951038078302e-05,
      "loss": 10.3347,
      "step": 22
    },
    {
      "epoch": 0.027190778779370473,
      "grad_norm": 0.4883737564086914,
      "learning_rate": 8.213938048432697e-05,
      "loss": 10.3303,
      "step": 23
    },
    {
      "epoch": 0.02837298655238658,
      "grad_norm": 0.5493861436843872,
      "learning_rate": 8.043807145043604e-05,
      "loss": 10.327,
      "step": 24
    },
    {
      "epoch": 0.02955519432540269,
      "grad_norm": 0.5113047361373901,
      "learning_rate": 7.86788218175523e-05,
      "loss": 10.3275,
      "step": 25
    },
    {
      "epoch": 0.02955519432540269,
      "eval_loss": 10.32721996307373,
      "eval_runtime": 11.1941,
      "eval_samples_per_second": 63.694,
      "eval_steps_per_second": 31.892,
      "step": 25
    },
    {
      "epoch": 0.030737402098418798,
      "grad_norm": 0.5218274593353271,
      "learning_rate": 7.68649804173412e-05,
      "loss": 10.3256,
      "step": 26
    },
    {
      "epoch": 0.031919609871434905,
      "grad_norm": 0.4940618574619293,
      "learning_rate": 7.500000000000001e-05,
      "loss": 10.3235,
      "step": 27
    },
    {
      "epoch": 0.03310181764445101,
      "grad_norm": 0.5238776206970215,
      "learning_rate": 7.308743066175172e-05,
      "loss": 10.3201,
      "step": 28
    },
    {
      "epoch": 0.03428402541746712,
      "grad_norm": 0.5208531618118286,
      "learning_rate": 7.113091308703498e-05,
      "loss": 10.3259,
      "step": 29
    },
    {
      "epoch": 0.035466233190483226,
      "grad_norm": 0.4884912371635437,
      "learning_rate": 6.91341716182545e-05,
      "loss": 10.322,
      "step": 30
    },
    {
      "epoch": 0.03664844096349933,
      "grad_norm": 0.502714991569519,
      "learning_rate": 6.710100716628344e-05,
      "loss": 10.3168,
      "step": 31
    },
    {
      "epoch": 0.03783064873651544,
      "grad_norm": 0.4994688928127289,
      "learning_rate": 6.503528997521366e-05,
      "loss": 10.3133,
      "step": 32
    },
    {
      "epoch": 0.03901285650953155,
      "grad_norm": 0.48997777700424194,
      "learning_rate": 6.294095225512603e-05,
      "loss": 10.3152,
      "step": 33
    },
    {
      "epoch": 0.040195064282547655,
      "grad_norm": 0.47123217582702637,
      "learning_rate": 6.0821980696905146e-05,
      "loss": 10.3165,
      "step": 34
    },
    {
      "epoch": 0.04137727205556377,
      "grad_norm": 0.4655868113040924,
      "learning_rate": 5.868240888334653e-05,
      "loss": 10.3137,
      "step": 35
    },
    {
      "epoch": 0.042559479828579876,
      "grad_norm": 0.47290700674057007,
      "learning_rate": 5.6526309611002594e-05,
      "loss": 10.3092,
      "step": 36
    },
    {
      "epoch": 0.04374168760159598,
      "grad_norm": 0.45041579008102417,
      "learning_rate": 5.435778713738292e-05,
      "loss": 10.313,
      "step": 37
    },
    {
      "epoch": 0.04492389537461209,
      "grad_norm": 0.4488605260848999,
      "learning_rate": 5.218096936826681e-05,
      "loss": 10.3097,
      "step": 38
    },
    {
      "epoch": 0.0461061031476282,
      "grad_norm": 0.4443797469139099,
      "learning_rate": 5e-05,
      "loss": 10.3127,
      "step": 39
    },
    {
      "epoch": 0.047288310920644304,
      "grad_norm": 0.43257617950439453,
      "learning_rate": 4.781903063173321e-05,
      "loss": 10.3075,
      "step": 40
    },
    {
      "epoch": 0.04847051869366041,
      "grad_norm": 0.4261913001537323,
      "learning_rate": 4.564221286261709e-05,
      "loss": 10.3078,
      "step": 41
    },
    {
      "epoch": 0.04965272646667652,
      "grad_norm": 0.4139930307865143,
      "learning_rate": 4.347369038899744e-05,
      "loss": 10.3092,
      "step": 42
    },
    {
      "epoch": 0.050834934239692625,
      "grad_norm": 0.4107111692428589,
      "learning_rate": 4.131759111665349e-05,
      "loss": 10.3064,
      "step": 43
    },
    {
      "epoch": 0.05201714201270873,
      "grad_norm": 0.4274075925350189,
      "learning_rate": 3.917801930309486e-05,
      "loss": 10.3095,
      "step": 44
    },
    {
      "epoch": 0.05319934978572484,
      "grad_norm": 0.36746472120285034,
      "learning_rate": 3.705904774487396e-05,
      "loss": 10.3076,
      "step": 45
    },
    {
      "epoch": 0.054381557558740946,
      "grad_norm": 0.3831612765789032,
      "learning_rate": 3.4964710024786354e-05,
      "loss": 10.305,
      "step": 46
    },
    {
      "epoch": 0.05556376533175705,
      "grad_norm": 0.39060816168785095,
      "learning_rate": 3.289899283371657e-05,
      "loss": 10.3008,
      "step": 47
    },
    {
      "epoch": 0.05674597310477316,
      "grad_norm": 0.36450064182281494,
      "learning_rate": 3.086582838174551e-05,
      "loss": 10.306,
      "step": 48
    },
    {
      "epoch": 0.057928180877789275,
      "grad_norm": 0.37881675362586975,
      "learning_rate": 2.886908691296504e-05,
      "loss": 10.3028,
      "step": 49
    },
    {
      "epoch": 0.05911038865080538,
      "grad_norm": 0.34583741426467896,
      "learning_rate": 2.6912569338248315e-05,
      "loss": 10.3086,
      "step": 50
    },
    {
      "epoch": 0.05911038865080538,
      "eval_loss": 10.30260944366455,
      "eval_runtime": 11.0633,
      "eval_samples_per_second": 64.448,
      "eval_steps_per_second": 32.269,
      "step": 50
    },
    {
      "epoch": 0.06029259642382149,
      "grad_norm": 0.35565540194511414,
      "learning_rate": 2.500000000000001e-05,
      "loss": 10.3027,
      "step": 51
    },
    {
      "epoch": 0.061474804196837596,
      "grad_norm": 0.3417057991027832,
      "learning_rate": 2.3135019582658802e-05,
      "loss": 10.3046,
      "step": 52
    },
    {
      "epoch": 0.0626570119698537,
      "grad_norm": 0.33912089467048645,
      "learning_rate": 2.132117818244771e-05,
      "loss": 10.3053,
      "step": 53
    },
    {
      "epoch": 0.06383921974286981,
      "grad_norm": 0.3465961813926697,
      "learning_rate": 1.9561928549563968e-05,
      "loss": 10.3034,
      "step": 54
    },
    {
      "epoch": 0.06502142751588591,
      "grad_norm": 0.3403364419937134,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 10.302,
      "step": 55
    },
    {
      "epoch": 0.06620363528890202,
      "grad_norm": 0.33106306195259094,
      "learning_rate": 1.622048961921699e-05,
      "loss": 10.3076,
      "step": 56
    },
    {
      "epoch": 0.06738584306191814,
      "grad_norm": 0.3448447287082672,
      "learning_rate": 1.4644660940672627e-05,
      "loss": 10.2994,
      "step": 57
    },
    {
      "epoch": 0.06856805083493424,
      "grad_norm": 0.33323007822036743,
      "learning_rate": 1.3136133159493802e-05,
      "loss": 10.3026,
      "step": 58
    },
    {
      "epoch": 0.06975025860795035,
      "grad_norm": 0.32261210680007935,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 10.3058,
      "step": 59
    },
    {
      "epoch": 0.07093246638096645,
      "grad_norm": 0.33051347732543945,
      "learning_rate": 1.0332332985438248e-05,
      "loss": 10.2994,
      "step": 60
    },
    {
      "epoch": 0.07211467415398257,
      "grad_norm": 0.3287923038005829,
      "learning_rate": 9.042397785550405e-06,
      "loss": 10.3033,
      "step": 61
    },
    {
      "epoch": 0.07329688192699867,
      "grad_norm": 0.33598190546035767,
      "learning_rate": 7.830427709355725e-06,
      "loss": 10.3011,
      "step": 62
    },
    {
      "epoch": 0.07447908970001478,
      "grad_norm": 0.318424791097641,
      "learning_rate": 6.698729810778065e-06,
      "loss": 10.3029,
      "step": 63
    },
    {
      "epoch": 0.07566129747303088,
      "grad_norm": 0.32850056886672974,
      "learning_rate": 5.649458341088915e-06,
      "loss": 10.3013,
      "step": 64
    },
    {
      "epoch": 0.076843505246047,
      "grad_norm": 0.31445056200027466,
      "learning_rate": 4.684610648167503e-06,
      "loss": 10.3032,
      "step": 65
    },
    {
      "epoch": 0.0780257130190631,
      "grad_norm": 0.3170875608921051,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 10.3019,
      "step": 66
    },
    {
      "epoch": 0.07920792079207921,
      "grad_norm": 0.3237294852733612,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 10.2993,
      "step": 67
    },
    {
      "epoch": 0.08039012856509531,
      "grad_norm": 0.3161391019821167,
      "learning_rate": 2.314152462588659e-06,
      "loss": 10.3023,
      "step": 68
    },
    {
      "epoch": 0.08157233633811142,
      "grad_norm": 0.3209376931190491,
      "learning_rate": 1.70370868554659e-06,
      "loss": 10.3021,
      "step": 69
    },
    {
      "epoch": 0.08275454411112754,
      "grad_norm": 0.31894317269325256,
      "learning_rate": 1.1851996440033319e-06,
      "loss": 10.3016,
      "step": 70
    },
    {
      "epoch": 0.08393675188414364,
      "grad_norm": 0.372801810503006,
      "learning_rate": 7.596123493895991e-07,
      "loss": 10.3076,
      "step": 71
    },
    {
      "epoch": 0.08511895965715975,
      "grad_norm": 0.36965852975845337,
      "learning_rate": 4.277569313094809e-07,
      "loss": 10.2996,
      "step": 72
    },
    {
      "epoch": 0.08630116743017585,
      "grad_norm": 0.3338715136051178,
      "learning_rate": 1.9026509541272275e-07,
      "loss": 10.2972,
      "step": 73
    },
    {
      "epoch": 0.08748337520319197,
      "grad_norm": 0.34212973713874817,
      "learning_rate": 4.7588920907110094e-08,
      "loss": 10.2959,
      "step": 74
    },
    {
      "epoch": 0.08866558297620807,
      "grad_norm": 0.32610419392585754,
      "learning_rate": 0.0,
      "loss": 10.2986,
      "step": 75
    },
    {
      "epoch": 0.08866558297620807,
      "eval_loss": 10.29992389678955,
      "eval_runtime": 11.0509,
      "eval_samples_per_second": 64.52,
      "eval_steps_per_second": 32.305,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 75,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 16038022348800.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}