{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.27816411682892905,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0027816411682892906,
      "grad_norm": 16.426916122436523,
      "learning_rate": 1e-05,
      "loss": 11.4221,
      "step": 1
    },
    {
      "epoch": 0.0027816411682892906,
      "eval_loss": 10.321761131286621,
      "eval_runtime": 66.3613,
      "eval_samples_per_second": 4.566,
      "eval_steps_per_second": 0.573,
      "step": 1
    },
    {
      "epoch": 0.005563282336578581,
      "grad_norm": 18.711360931396484,
      "learning_rate": 2e-05,
      "loss": 10.9581,
      "step": 2
    },
    {
      "epoch": 0.008344923504867872,
      "grad_norm": 16.922548294067383,
      "learning_rate": 3e-05,
      "loss": 11.0769,
      "step": 3
    },
    {
      "epoch": 0.011126564673157162,
      "grad_norm": 25.127206802368164,
      "learning_rate": 4e-05,
      "loss": 9.6337,
      "step": 4
    },
    {
      "epoch": 0.013908205841446454,
      "grad_norm": 18.2965145111084,
      "learning_rate": 5e-05,
      "loss": 9.4801,
      "step": 5
    },
    {
      "epoch": 0.016689847009735744,
      "grad_norm": 25.34382438659668,
      "learning_rate": 6e-05,
      "loss": 7.5277,
      "step": 6
    },
    {
      "epoch": 0.019471488178025034,
      "grad_norm": 31.370840072631836,
      "learning_rate": 7e-05,
      "loss": 4.2407,
      "step": 7
    },
    {
      "epoch": 0.022253129346314324,
      "grad_norm": 31.080530166625977,
      "learning_rate": 8e-05,
      "loss": 4.451,
      "step": 8
    },
    {
      "epoch": 0.025034770514603615,
      "grad_norm": 10.037643432617188,
      "learning_rate": 9e-05,
      "loss": 2.7058,
      "step": 9
    },
    {
      "epoch": 0.025034770514603615,
      "eval_loss": 3.1592934131622314,
      "eval_runtime": 65.6159,
      "eval_samples_per_second": 4.618,
      "eval_steps_per_second": 0.579,
      "step": 9
    },
    {
      "epoch": 0.027816411682892908,
      "grad_norm": 7.738121509552002,
      "learning_rate": 0.0001,
      "loss": 2.135,
      "step": 10
    },
    {
      "epoch": 0.030598052851182198,
      "grad_norm": 12.399163246154785,
      "learning_rate": 9.99695413509548e-05,
      "loss": 3.0626,
      "step": 11
    },
    {
      "epoch": 0.03337969401947149,
      "grad_norm": 5.438999652862549,
      "learning_rate": 9.987820251299122e-05,
      "loss": 0.7971,
      "step": 12
    },
    {
      "epoch": 0.03616133518776078,
      "grad_norm": 10.14986801147461,
      "learning_rate": 9.972609476841367e-05,
      "loss": 1.4422,
      "step": 13
    },
    {
      "epoch": 0.03894297635605007,
      "grad_norm": 11.629022598266602,
      "learning_rate": 9.951340343707852e-05,
      "loss": 1.3765,
      "step": 14
    },
    {
      "epoch": 0.04172461752433936,
      "grad_norm": 6.7603373527526855,
      "learning_rate": 9.924038765061042e-05,
      "loss": 0.4782,
      "step": 15
    },
    {
      "epoch": 0.04450625869262865,
      "grad_norm": 6.349445819854736,
      "learning_rate": 9.890738003669029e-05,
      "loss": 0.2451,
      "step": 16
    },
    {
      "epoch": 0.04728789986091794,
      "grad_norm": 2.5475478172302246,
      "learning_rate": 9.851478631379982e-05,
      "loss": 0.0501,
      "step": 17
    },
    {
      "epoch": 0.05006954102920723,
      "grad_norm": 1.0110154151916504,
      "learning_rate": 9.806308479691595e-05,
      "loss": 0.0168,
      "step": 18
    },
    {
      "epoch": 0.05006954102920723,
      "eval_loss": 0.019981641322374344,
      "eval_runtime": 65.5739,
      "eval_samples_per_second": 4.621,
      "eval_steps_per_second": 0.579,
      "step": 18
    },
    {
      "epoch": 0.05285118219749652,
      "grad_norm": 0.5476788282394409,
      "learning_rate": 9.755282581475769e-05,
      "loss": 0.0096,
      "step": 19
    },
    {
      "epoch": 0.055632823365785816,
      "grad_norm": 1.7587575912475586,
      "learning_rate": 9.698463103929542e-05,
      "loss": 0.0111,
      "step": 20
    },
    {
      "epoch": 0.0584144645340751,
      "grad_norm": 0.21446363627910614,
      "learning_rate": 9.635919272833938e-05,
      "loss": 0.0021,
      "step": 21
    },
    {
      "epoch": 0.061196105702364396,
      "grad_norm": 0.0027146288193762302,
      "learning_rate": 9.567727288213005e-05,
      "loss": 0.0,
      "step": 22
    },
    {
      "epoch": 0.06397774687065369,
      "grad_norm": 2.7412056922912598,
      "learning_rate": 9.493970231495835e-05,
      "loss": 0.0188,
      "step": 23
    },
    {
      "epoch": 0.06675938803894298,
      "grad_norm": 0.0024564166087657213,
      "learning_rate": 9.414737964294636e-05,
      "loss": 0.0,
      "step": 24
    },
    {
      "epoch": 0.06954102920723226,
      "grad_norm": 0.0004600176471285522,
      "learning_rate": 9.330127018922194e-05,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.07232267037552156,
      "grad_norm": 0.0009803823195397854,
      "learning_rate": 9.24024048078213e-05,
      "loss": 0.0,
      "step": 26
    },
    {
      "epoch": 0.07510431154381085,
      "grad_norm": 0.00029841443756595254,
      "learning_rate": 9.145187862775209e-05,
      "loss": 0.0,
      "step": 27
    },
    {
      "epoch": 0.07510431154381085,
      "eval_loss": 0.006039719562977552,
      "eval_runtime": 65.5547,
      "eval_samples_per_second": 4.622,
      "eval_steps_per_second": 0.58,
      "step": 27
    },
    {
      "epoch": 0.07788595271210014,
      "grad_norm": 0.0003312278422527015,
      "learning_rate": 9.045084971874738e-05,
      "loss": 0.0,
      "step": 28
    },
    {
      "epoch": 0.08066759388038942,
      "grad_norm": 0.09884258359670639,
      "learning_rate": 8.940053768033609e-05,
      "loss": 0.0004,
      "step": 29
    },
    {
      "epoch": 0.08344923504867872,
      "grad_norm": 0.0011303855571895838,
      "learning_rate": 8.83022221559489e-05,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.08623087621696801,
      "grad_norm": 0.006349045317620039,
      "learning_rate": 8.715724127386972e-05,
      "loss": 0.0,
      "step": 31
    },
    {
      "epoch": 0.0890125173852573,
      "grad_norm": 0.0020297840237617493,
      "learning_rate": 8.596699001693255e-05,
      "loss": 0.0,
      "step": 32
    },
    {
      "epoch": 0.0917941585535466,
      "grad_norm": 0.00541253387928009,
      "learning_rate": 8.473291852294987e-05,
      "loss": 0.0,
      "step": 33
    },
    {
      "epoch": 0.09457579972183588,
      "grad_norm": 0.17112696170806885,
      "learning_rate": 8.345653031794292e-05,
      "loss": 0.0005,
      "step": 34
    },
    {
      "epoch": 0.09735744089012517,
      "grad_norm": 0.000660874939057976,
      "learning_rate": 8.213938048432697e-05,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.10013908205841446,
      "grad_norm": 6.384660720825195,
      "learning_rate": 8.07830737662829e-05,
      "loss": 0.2318,
      "step": 36
    },
    {
      "epoch": 0.10013908205841446,
      "eval_loss": 0.0008092016796581447,
      "eval_runtime": 65.4797,
      "eval_samples_per_second": 4.627,
      "eval_steps_per_second": 0.58,
      "step": 36
    },
    {
      "epoch": 0.10292072322670376,
      "grad_norm": 1.2912922102259472e-05,
      "learning_rate": 7.938926261462366e-05,
      "loss": 0.0,
      "step": 37
    },
    {
      "epoch": 0.10570236439499305,
      "grad_norm": 4.694185918197036e-05,
      "learning_rate": 7.795964517353735e-05,
      "loss": 0.0,
      "step": 38
    },
    {
      "epoch": 0.10848400556328233,
      "grad_norm": 0.18755558133125305,
      "learning_rate": 7.649596321166024e-05,
      "loss": 0.0008,
      "step": 39
    },
    {
      "epoch": 0.11126564673157163,
      "grad_norm": 1.0067525181511883e-05,
      "learning_rate": 7.500000000000001e-05,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.11404728789986092,
      "grad_norm": 4.938317943015136e-06,
      "learning_rate": 7.347357813929454e-05,
      "loss": 0.0,
      "step": 41
    },
    {
      "epoch": 0.1168289290681502,
      "grad_norm": 4.8132324081962e-06,
      "learning_rate": 7.191855733945387e-05,
      "loss": 0.0,
      "step": 42
    },
    {
      "epoch": 0.11961057023643949,
      "grad_norm": 3.249419751227833e-05,
      "learning_rate": 7.033683215379002e-05,
      "loss": 0.0,
      "step": 43
    },
    {
      "epoch": 0.12239221140472879,
      "grad_norm": 7.361083589785267e-06,
      "learning_rate": 6.873032967079561e-05,
      "loss": 0.0,
      "step": 44
    },
    {
      "epoch": 0.12517385257301808,
      "grad_norm": 0.09577132016420364,
      "learning_rate": 6.710100716628344e-05,
      "loss": 0.0004,
      "step": 45
    },
    {
      "epoch": 0.12517385257301808,
      "eval_loss": 0.0010718230623751879,
      "eval_runtime": 65.5951,
      "eval_samples_per_second": 4.619,
      "eval_steps_per_second": 0.579,
      "step": 45
    },
    {
      "epoch": 0.12795549374130738,
      "grad_norm": 2.426931678201072e-05,
      "learning_rate": 6.545084971874738e-05,
      "loss": 0.0,
      "step": 46
    },
    {
      "epoch": 0.13073713490959665,
      "grad_norm": 2.283918729517609e-05,
      "learning_rate": 6.378186779084995e-05,
      "loss": 0.0,
      "step": 47
    },
    {
      "epoch": 0.13351877607788595,
      "grad_norm": 4.879811058344785e-06,
      "learning_rate": 6.209609477998338e-05,
      "loss": 0.0,
      "step": 48
    },
    {
      "epoch": 0.13630041724617525,
      "grad_norm": 4.926140263705747e-06,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 0.0,
      "step": 49
    },
    {
      "epoch": 0.13908205841446453,
      "grad_norm": 8.765460734139197e-06,
      "learning_rate": 5.868240888334653e-05,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.14186369958275383,
      "grad_norm": 7.217805432446767e-06,
      "learning_rate": 5.695865504800327e-05,
      "loss": 0.0,
      "step": 51
    },
    {
      "epoch": 0.14464534075104313,
      "grad_norm": 4.9700533963914495e-06,
      "learning_rate": 5.522642316338268e-05,
      "loss": 0.0,
      "step": 52
    },
    {
      "epoch": 0.1474269819193324,
      "grad_norm": 2.5943822038243525e-05,
      "learning_rate": 5.348782368720626e-05,
      "loss": 0.0,
      "step": 53
    },
    {
      "epoch": 0.1502086230876217,
      "grad_norm": 1.6696252714609727e-05,
      "learning_rate": 5.174497483512506e-05,
      "loss": 0.0,
      "step": 54
    },
    {
      "epoch": 0.1502086230876217,
      "eval_loss": 0.0023401842918246984,
      "eval_runtime": 65.5294,
      "eval_samples_per_second": 4.624,
      "eval_steps_per_second": 0.58,
      "step": 54
    },
    {
      "epoch": 0.15299026425591097,
      "grad_norm": 3.8724078876839485e-06,
      "learning_rate": 5e-05,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.15577190542420027,
      "grad_norm": 1.2276537745492533e-05,
      "learning_rate": 4.825502516487497e-05,
      "loss": 0.0,
      "step": 56
    },
    {
      "epoch": 0.15855354659248957,
      "grad_norm": 2.5876863219309598e-05,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 0.0,
      "step": 57
    },
    {
      "epoch": 0.16133518776077885,
      "grad_norm": 8.749322296353057e-05,
      "learning_rate": 4.477357683661734e-05,
      "loss": 0.0,
      "step": 58
    },
    {
      "epoch": 0.16411682892906815,
      "grad_norm": 1.712118864816148e-05,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 0.0,
      "step": 59
    },
    {
      "epoch": 0.16689847009735745,
      "grad_norm": 2.308480179635808e-05,
      "learning_rate": 4.131759111665349e-05,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.16968011126564672,
      "grad_norm": 7.027095762168756e-06,
      "learning_rate": 3.960441545911204e-05,
      "loss": 0.0,
      "step": 61
    },
    {
      "epoch": 0.17246175243393602,
      "grad_norm": 7.382780040643411e-06,
      "learning_rate": 3.790390522001662e-05,
      "loss": 0.0,
      "step": 62
    },
    {
      "epoch": 0.17524339360222532,
      "grad_norm": 2.3965229047462344e-05,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 0.0,
      "step": 63
    },
    {
      "epoch": 0.17524339360222532,
      "eval_loss": 0.0028376129921525717,
      "eval_runtime": 65.4873,
      "eval_samples_per_second": 4.627,
      "eval_steps_per_second": 0.58,
      "step": 63
    },
    {
      "epoch": 0.1780250347705146,
      "grad_norm": 1.0226192898699082e-05,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 0.0,
      "step": 64
    },
    {
      "epoch": 0.1808066759388039,
      "grad_norm": 1.0573015060799662e-05,
      "learning_rate": 3.289899283371657e-05,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.1835883171070932,
      "grad_norm": 9.868974302662537e-06,
      "learning_rate": 3.12696703292044e-05,
      "loss": 0.0,
      "step": 66
    },
    {
      "epoch": 0.18636995827538247,
      "grad_norm": 2.5517723770462908e-05,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 0.0,
      "step": 67
    },
    {
      "epoch": 0.18915159944367177,
      "grad_norm": 1.1723280294972938e-05,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 0.0,
      "step": 68
    },
    {
      "epoch": 0.19193324061196107,
      "grad_norm": 7.75958142185118e-06,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 0.0,
      "step": 69
    },
    {
      "epoch": 0.19471488178025034,
      "grad_norm": 1.409273136232514e-05,
      "learning_rate": 2.500000000000001e-05,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.19749652294853964,
      "grad_norm": 1.160700685431948e-05,
      "learning_rate": 2.350403678833976e-05,
      "loss": 0.0,
      "step": 71
    },
    {
      "epoch": 0.20027816411682892,
      "grad_norm": 1.2022701412206516e-05,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 0.0,
      "step": 72
    },
    {
      "epoch": 0.20027816411682892,
      "eval_loss": 0.00283798947930336,
      "eval_runtime": 65.5515,
      "eval_samples_per_second": 4.622,
      "eval_steps_per_second": 0.58,
      "step": 72
    },
    {
      "epoch": 0.20305980528511822,
      "grad_norm": 8.21447520138463e-06,
      "learning_rate": 2.061073738537635e-05,
      "loss": 0.0,
      "step": 73
    },
    {
      "epoch": 0.20584144645340752,
      "grad_norm": 8.699649697518907e-06,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 0.0,
      "step": 74
    },
    {
      "epoch": 0.2086230876216968,
      "grad_norm": 2.3488306396757253e-05,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.2114047287899861,
      "grad_norm": 1.0794195986818522e-05,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 0.0,
      "step": 76
    },
    {
      "epoch": 0.2141863699582754,
      "grad_norm": 6.09993512625806e-05,
      "learning_rate": 1.526708147705013e-05,
      "loss": 0.0,
      "step": 77
    },
    {
      "epoch": 0.21696801112656466,
      "grad_norm": 1.4044430827198084e-05,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 0.0,
      "step": 78
    },
    {
      "epoch": 0.21974965229485396,
      "grad_norm": 1.1747451026167255e-05,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 0.0,
      "step": 79
    },
    {
      "epoch": 0.22253129346314326,
      "grad_norm": 1.2638842235901393e-05,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.22531293463143254,
      "grad_norm": 1.3892581591790076e-05,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 0.0,
      "step": 81
    },
    {
      "epoch": 0.22531293463143254,
      "eval_loss": 0.003094213781878352,
      "eval_runtime": 65.5512,
      "eval_samples_per_second": 4.622,
      "eval_steps_per_second": 0.58,
      "step": 81
    },
    {
      "epoch": 0.22809457579972184,
      "grad_norm": 0.00011207773059140891,
      "learning_rate": 9.549150281252633e-06,
      "loss": 0.0,
      "step": 82
    },
    {
      "epoch": 0.23087621696801114,
      "grad_norm": 3.354518048581667e-05,
      "learning_rate": 8.548121372247918e-06,
      "loss": 0.0,
      "step": 83
    },
    {
      "epoch": 0.2336578581363004,
      "grad_norm": 5.909705214435235e-05,
      "learning_rate": 7.597595192178702e-06,
      "loss": 0.0,
      "step": 84
    },
    {
      "epoch": 0.2364394993045897,
      "grad_norm": 6.752560148015618e-05,
      "learning_rate": 6.698729810778065e-06,
      "loss": 0.0,
      "step": 85
    },
    {
      "epoch": 0.23922114047287898,
      "grad_norm": 5.754792709922185e-06,
      "learning_rate": 5.852620357053651e-06,
      "loss": 0.0,
      "step": 86
    },
    {
      "epoch": 0.24200278164116829,
      "grad_norm": 1.0329221368010622e-05,
      "learning_rate": 5.060297685041659e-06,
      "loss": 0.0,
      "step": 87
    },
    {
      "epoch": 0.24478442280945759,
      "grad_norm": 1.6644171410007402e-05,
      "learning_rate": 4.322727117869951e-06,
      "loss": 0.0,
      "step": 88
    },
    {
      "epoch": 0.24756606397774686,
      "grad_norm": 2.0343353753560223e-05,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 0.0,
      "step": 89
    },
    {
      "epoch": 0.25034770514603616,
      "grad_norm": 1.7435373592888936e-05,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 0.25034770514603616,
      "eval_loss": 0.002837944542989135,
      "eval_runtime": 65.51,
      "eval_samples_per_second": 4.625,
      "eval_steps_per_second": 0.58,
      "step": 90
    },
    {
      "epoch": 0.25312934631432543,
      "grad_norm": 3.190342613379471e-05,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 0.0,
      "step": 91
    },
    {
      "epoch": 0.25591098748261476,
      "grad_norm": 1.1693891792674549e-05,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 0.0,
      "step": 92
    },
    {
      "epoch": 0.25869262865090403,
      "grad_norm": 2.0059831513208337e-05,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 0.0,
      "step": 93
    },
    {
      "epoch": 0.2614742698191933,
      "grad_norm": 0.00017091452900785953,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 0.0,
      "step": 94
    },
    {
      "epoch": 0.26425591098748263,
      "grad_norm": 10.93679141998291,
      "learning_rate": 7.596123493895991e-07,
      "loss": 0.1123,
      "step": 95
    },
    {
      "epoch": 0.2670375521557719,
      "grad_norm": 1.3947700608696323e-05,
      "learning_rate": 4.865965629214819e-07,
      "loss": 0.0,
      "step": 96
    },
    {
      "epoch": 0.2698191933240612,
      "grad_norm": 0.3040238618850708,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 0.0006,
      "step": 97
    },
    {
      "epoch": 0.2726008344923505,
      "grad_norm": 0.0006167896208353341,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 0.0,
      "step": 98
    },
    {
      "epoch": 0.2753824756606398,
      "grad_norm": 0.04959489405155182,
      "learning_rate": 3.04586490452119e-08,
      "loss": 0.0001,
      "step": 99
    },
    {
      "epoch": 0.2753824756606398,
      "eval_loss": 0.002340545877814293,
      "eval_runtime": 65.5113,
      "eval_samples_per_second": 4.625,
      "eval_steps_per_second": 0.58,
      "step": 99
    },
    {
      "epoch": 0.27816411682892905,
      "grad_norm": 8.745052582526114e-06,
      "learning_rate": 0.0,
      "loss": 0.0,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4466802029428736e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}