{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.3865979381443299,
  "eval_steps": 9,
  "global_step": 75,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005154639175257732,
      "grad_norm": 15.083428382873535,
      "learning_rate": 1e-05,
      "loss": 11.5555,
      "step": 1
    },
    {
      "epoch": 0.005154639175257732,
      "eval_loss": 11.429076194763184,
      "eval_runtime": 23.1273,
      "eval_samples_per_second": 7.091,
      "eval_steps_per_second": 0.908,
      "step": 1
    },
    {
      "epoch": 0.010309278350515464,
      "grad_norm": 14.949371337890625,
      "learning_rate": 2e-05,
      "loss": 11.2947,
      "step": 2
    },
    {
      "epoch": 0.015463917525773196,
      "grad_norm": 15.210247039794922,
      "learning_rate": 3e-05,
      "loss": 11.4164,
      "step": 3
    },
    {
      "epoch": 0.020618556701030927,
      "grad_norm": 13.815455436706543,
      "learning_rate": 4e-05,
      "loss": 10.7691,
      "step": 4
    },
    {
      "epoch": 0.02577319587628866,
      "grad_norm": 16.751182556152344,
      "learning_rate": 5e-05,
      "loss": 10.9737,
      "step": 5
    },
    {
      "epoch": 0.030927835051546393,
      "grad_norm": 15.537214279174805,
      "learning_rate": 6e-05,
      "loss": 10.3828,
      "step": 6
    },
    {
      "epoch": 0.03608247422680412,
      "grad_norm": 15.65123176574707,
      "learning_rate": 7e-05,
      "loss": 8.0747,
      "step": 7
    },
    {
      "epoch": 0.041237113402061855,
      "grad_norm": 15.468289375305176,
      "learning_rate": 8e-05,
      "loss": 7.4128,
      "step": 8
    },
    {
      "epoch": 0.04639175257731959,
      "grad_norm": 17.824726104736328,
      "learning_rate": 9e-05,
      "loss": 5.3939,
      "step": 9
    },
    {
      "epoch": 0.04639175257731959,
      "eval_loss": 3.5317728519439697,
      "eval_runtime": 21.6837,
      "eval_samples_per_second": 7.563,
      "eval_steps_per_second": 0.968,
      "step": 9
    },
    {
      "epoch": 0.05154639175257732,
      "grad_norm": 17.470151901245117,
      "learning_rate": 0.0001,
      "loss": 3.9293,
      "step": 10
    },
    {
      "epoch": 0.05670103092783505,
      "grad_norm": 15.04959774017334,
      "learning_rate": 9.99695413509548e-05,
      "loss": 1.149,
      "step": 11
    },
    {
      "epoch": 0.061855670103092786,
      "grad_norm": 5.975733280181885,
      "learning_rate": 9.987820251299122e-05,
      "loss": 0.1448,
      "step": 12
    },
    {
      "epoch": 0.06701030927835051,
      "grad_norm": 3.4990429878234863,
      "learning_rate": 9.972609476841367e-05,
      "loss": 0.0539,
      "step": 13
    },
    {
      "epoch": 0.07216494845360824,
      "grad_norm": 3.667630672454834,
      "learning_rate": 9.951340343707852e-05,
      "loss": 0.0504,
      "step": 14
    },
    {
      "epoch": 0.07731958762886598,
      "grad_norm": 0.26260659098625183,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.0031,
      "step": 15
    },
    {
      "epoch": 0.08247422680412371,
      "grad_norm": 0.010713611729443073,
      "learning_rate": 9.890738003669029e-05,
      "loss": 0.0002,
      "step": 16
    },
    {
      "epoch": 0.08762886597938144,
      "grad_norm": 5.015834331512451,
      "learning_rate": 9.851478631379982e-05,
      "loss": 0.5107,
      "step": 17
    },
    {
      "epoch": 0.09278350515463918,
      "grad_norm": 0.006870861630886793,
      "learning_rate": 9.806308479691595e-05,
      "loss": 0.0001,
      "step": 18
    },
    {
      "epoch": 0.09278350515463918,
      "eval_loss": 0.19031810760498047,
      "eval_runtime": 21.7163,
      "eval_samples_per_second": 7.552,
      "eval_steps_per_second": 0.967,
      "step": 18
    },
    {
      "epoch": 0.0979381443298969,
      "grad_norm": 0.006708410568535328,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.0001,
      "step": 19
    },
    {
      "epoch": 0.10309278350515463,
      "grad_norm": 0.10166840255260468,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.0003,
      "step": 20
    },
    {
      "epoch": 0.10824742268041238,
      "grad_norm": 0.018711626529693604,
      "learning_rate": 9.635919272833938e-05,
      "loss": 0.0001,
      "step": 21
    },
    {
      "epoch": 0.1134020618556701,
      "grad_norm": 0.44631898403167725,
      "learning_rate": 9.567727288213005e-05,
      "loss": 0.0012,
      "step": 22
    },
    {
      "epoch": 0.11855670103092783,
      "grad_norm": 0.001286935294046998,
      "learning_rate": 9.493970231495835e-05,
      "loss": 0.0,
      "step": 23
    },
    {
      "epoch": 0.12371134020618557,
      "grad_norm": 0.0012446076143532991,
      "learning_rate": 9.414737964294636e-05,
      "loss": 0.0,
      "step": 24
    },
    {
      "epoch": 0.12886597938144329,
      "grad_norm": 0.001347543322481215,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.13402061855670103,
      "grad_norm": 0.0012311228783801198,
      "learning_rate": 9.24024048078213e-05,
      "loss": 0.0,
      "step": 26
    },
    {
      "epoch": 0.13917525773195877,
      "grad_norm": 3.0350265502929688,
      "learning_rate": 9.145187862775209e-05,
      "loss": 0.0273,
      "step": 27
    },
    {
      "epoch": 0.13917525773195877,
      "eval_loss": 0.13399523496627808,
      "eval_runtime": 21.6878,
      "eval_samples_per_second": 7.562,
      "eval_steps_per_second": 0.968,
      "step": 27
    },
    {
      "epoch": 0.14432989690721648,
      "grad_norm": 2.609058380126953,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.2549,
      "step": 28
    },
    {
      "epoch": 0.14948453608247422,
      "grad_norm": 2.5564022064208984,
      "learning_rate": 8.940053768033609e-05,
      "loss": 0.2713,
      "step": 29
    },
    {
      "epoch": 0.15463917525773196,
      "grad_norm": 0.004194566048681736,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.0001,
      "step": 30
    },
    {
      "epoch": 0.15979381443298968,
      "grad_norm": 0.02432350441813469,
      "learning_rate": 8.715724127386972e-05,
      "loss": 0.0003,
      "step": 31
    },
    {
      "epoch": 0.16494845360824742,
      "grad_norm": 0.10287989675998688,
      "learning_rate": 8.596699001693255e-05,
      "loss": 0.0016,
      "step": 32
    },
    {
      "epoch": 0.17010309278350516,
      "grad_norm": 0.15942052006721497,
      "learning_rate": 8.473291852294987e-05,
      "loss": 0.0022,
      "step": 33
    },
    {
      "epoch": 0.17525773195876287,
      "grad_norm": 0.13477763533592224,
      "learning_rate": 8.345653031794292e-05,
      "loss": 0.002,
      "step": 34
    },
    {
      "epoch": 0.18041237113402062,
      "grad_norm": 0.26224347949028015,
      "learning_rate": 8.213938048432697e-05,
      "loss": 0.0032,
      "step": 35
    },
    {
      "epoch": 0.18556701030927836,
      "grad_norm": 0.04019778594374657,
      "learning_rate": 8.07830737662829e-05,
      "loss": 0.0008,
      "step": 36
    },
    {
      "epoch": 0.18556701030927836,
      "eval_loss": 0.106597900390625,
      "eval_runtime": 21.7234,
      "eval_samples_per_second": 7.549,
      "eval_steps_per_second": 0.967,
      "step": 36
    },
    {
      "epoch": 0.19072164948453607,
      "grad_norm": 0.04918993264436722,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.0007,
      "step": 37
    },
    {
      "epoch": 0.1958762886597938,
      "grad_norm": 0.050692107528448105,
      "learning_rate": 7.795964517353735e-05,
      "loss": 0.0006,
      "step": 38
    },
    {
      "epoch": 0.20103092783505155,
      "grad_norm": 0.1913205236196518,
      "learning_rate": 7.649596321166024e-05,
      "loss": 0.0013,
      "step": 39
    },
    {
      "epoch": 0.20618556701030927,
      "grad_norm": 0.04988051578402519,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.0005,
      "step": 40
    },
    {
      "epoch": 0.211340206185567,
      "grad_norm": 0.0087781036272645,
      "learning_rate": 7.347357813929454e-05,
      "loss": 0.0002,
      "step": 41
    },
    {
      "epoch": 0.21649484536082475,
      "grad_norm": 0.005335505586117506,
      "learning_rate": 7.191855733945387e-05,
      "loss": 0.0001,
      "step": 42
    },
    {
      "epoch": 0.22164948453608246,
      "grad_norm": 0.004015314858406782,
      "learning_rate": 7.033683215379002e-05,
      "loss": 0.0001,
      "step": 43
    },
    {
      "epoch": 0.2268041237113402,
      "grad_norm": 0.003211095929145813,
      "learning_rate": 6.873032967079561e-05,
      "loss": 0.0001,
      "step": 44
    },
    {
      "epoch": 0.23195876288659795,
      "grad_norm": 0.0034166828263550997,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.0001,
      "step": 45
    },
    {
      "epoch": 0.23195876288659795,
      "eval_loss": 0.09906752407550812,
      "eval_runtime": 21.7256,
      "eval_samples_per_second": 7.549,
      "eval_steps_per_second": 0.967,
      "step": 45
    },
    {
      "epoch": 0.23711340206185566,
      "grad_norm": 0.003013444831594825,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.0001,
      "step": 46
    },
    {
      "epoch": 0.2422680412371134,
      "grad_norm": 0.002908573718741536,
      "learning_rate": 6.378186779084995e-05,
      "loss": 0.0001,
      "step": 47
    },
    {
      "epoch": 0.24742268041237114,
      "grad_norm": 0.0029524180572479963,
      "learning_rate": 6.209609477998338e-05,
      "loss": 0.0001,
      "step": 48
    },
    {
      "epoch": 0.25257731958762886,
      "grad_norm": 0.00290951831266284,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 0.0001,
      "step": 49
    },
    {
      "epoch": 0.25773195876288657,
      "grad_norm": 2.945087432861328,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.2683,
      "step": 50
    },
    {
      "epoch": 0.26288659793814434,
      "grad_norm": 0.0022095313761383295,
      "learning_rate": 5.695865504800327e-05,
      "loss": 0.0001,
      "step": 51
    },
    {
      "epoch": 0.26804123711340205,
      "grad_norm": 0.003031274536624551,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.0001,
      "step": 52
    },
    {
      "epoch": 0.27319587628865977,
      "grad_norm": 0.017305035144090652,
      "learning_rate": 5.348782368720626e-05,
      "loss": 0.0002,
      "step": 53
    },
    {
      "epoch": 0.27835051546391754,
      "grad_norm": 2.1465930938720703,
      "learning_rate": 5.174497483512506e-05,
      "loss": 0.0279,
      "step": 54
    },
    {
      "epoch": 0.27835051546391754,
      "eval_loss": 0.10534302890300751,
      "eval_runtime": 21.7379,
      "eval_samples_per_second": 7.544,
      "eval_steps_per_second": 0.966,
      "step": 54
    },
    {
      "epoch": 0.28350515463917525,
      "grad_norm": 0.2224368005990982,
      "learning_rate": 5e-05,
      "loss": 0.0015,
      "step": 55
    },
    {
      "epoch": 0.28865979381443296,
      "grad_norm": 0.08235872536897659,
      "learning_rate": 4.825502516487497e-05,
      "loss": 0.0006,
      "step": 56
    },
    {
      "epoch": 0.29381443298969073,
      "grad_norm": 0.03368155658245087,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 0.0003,
      "step": 57
    },
    {
      "epoch": 0.29896907216494845,
      "grad_norm": 0.014223175123333931,
      "learning_rate": 4.477357683661734e-05,
      "loss": 0.0002,
      "step": 58
    },
    {
      "epoch": 0.30412371134020616,
      "grad_norm": 0.048117745667696,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 0.0005,
      "step": 59
    },
    {
      "epoch": 0.30927835051546393,
      "grad_norm": 0.0046111526899039745,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.0001,
      "step": 60
    },
    {
      "epoch": 0.31443298969072164,
      "grad_norm": 0.0032656388357281685,
      "learning_rate": 3.960441545911204e-05,
      "loss": 0.0001,
      "step": 61
    },
    {
      "epoch": 0.31958762886597936,
      "grad_norm": 3.504179000854492,
      "learning_rate": 3.790390522001662e-05,
      "loss": 0.4632,
      "step": 62
    },
    {
      "epoch": 0.3247422680412371,
      "grad_norm": 0.0029905112460255623,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 0.0001,
      "step": 63
    },
    {
      "epoch": 0.3247422680412371,
      "eval_loss": 0.09115905314683914,
      "eval_runtime": 21.7103,
      "eval_samples_per_second": 7.554,
      "eval_steps_per_second": 0.967,
      "step": 63
    },
    {
      "epoch": 0.32989690721649484,
      "grad_norm": 0.005654788576066494,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.0001,
      "step": 64
    },
    {
      "epoch": 0.33505154639175255,
      "grad_norm": 0.007847449742257595,
      "learning_rate": 3.289899283371657e-05,
      "loss": 0.0001,
      "step": 65
    },
    {
      "epoch": 0.3402061855670103,
      "grad_norm": 0.022039692848920822,
      "learning_rate": 3.12696703292044e-05,
      "loss": 0.0003,
      "step": 66
    },
    {
      "epoch": 0.34536082474226804,
      "grad_norm": 0.01237566489726305,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 0.0002,
      "step": 67
    },
    {
      "epoch": 0.35051546391752575,
      "grad_norm": 0.019285019487142563,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 0.0003,
      "step": 68
    },
    {
      "epoch": 0.3556701030927835,
      "grad_norm": 1.4077210426330566,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 0.019,
      "step": 69
    },
    {
      "epoch": 0.36082474226804123,
      "grad_norm": 0.018754586577415466,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.0003,
      "step": 70
    },
    {
      "epoch": 0.36597938144329895,
      "grad_norm": 0.02043674699962139,
      "learning_rate": 2.350403678833976e-05,
      "loss": 0.0004,
      "step": 71
    },
    {
      "epoch": 0.3711340206185567,
      "grad_norm": 1.9752604961395264,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 0.3068,
      "step": 72
    },
    {
      "epoch": 0.3711340206185567,
      "eval_loss": 0.08815836161375046,
      "eval_runtime": 21.7317,
      "eval_samples_per_second": 7.547,
      "eval_steps_per_second": 0.966,
      "step": 72
    },
    {
      "epoch": 0.37628865979381443,
      "grad_norm": 0.03531327843666077,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.0006,
      "step": 73
    },
    {
      "epoch": 0.38144329896907214,
      "grad_norm": 0.03951334208250046,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 0.0007,
      "step": 74
    },
    {
      "epoch": 0.3865979381443299,
      "grad_norm": 0.0601244680583477,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 0.001,
      "step": 75
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.046381361017651e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}