{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.008158936074735855,
  "eval_steps": 5,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001631787214947171,
      "eval_loss": 4.6628947257995605,
      "eval_runtime": 562.5446,
      "eval_samples_per_second": 18.349,
      "eval_steps_per_second": 4.588,
      "step": 1
    },
    {
      "epoch": 0.0004895361644841513,
      "grad_norm": 1.2726378440856934,
      "learning_rate": 3e-05,
      "loss": 4.6457,
      "step": 3
    },
    {
      "epoch": 0.0008158936074735855,
      "eval_loss": 4.4790239334106445,
      "eval_runtime": 565.9453,
      "eval_samples_per_second": 18.239,
      "eval_steps_per_second": 4.561,
      "step": 5
    },
    {
      "epoch": 0.0009790723289683026,
      "grad_norm": 0.8270098567008972,
      "learning_rate": 6e-05,
      "loss": 4.5578,
      "step": 6
    },
    {
      "epoch": 0.0014686084934524537,
      "grad_norm": 0.8738812208175659,
      "learning_rate": 9e-05,
      "loss": 4.4122,
      "step": 9
    },
    {
      "epoch": 0.001631787214947171,
      "eval_loss": 4.286184787750244,
      "eval_runtime": 566.5505,
      "eval_samples_per_second": 18.219,
      "eval_steps_per_second": 4.556,
      "step": 10
    },
    {
      "epoch": 0.001958144657936605,
      "grad_norm": 0.5942067503929138,
      "learning_rate": 9.938441702975689e-05,
      "loss": 4.3278,
      "step": 12
    },
    {
      "epoch": 0.0024476808224207563,
      "grad_norm": 0.42127224802970886,
      "learning_rate": 9.619397662556435e-05,
      "loss": 4.1212,
      "step": 15
    },
    {
      "epoch": 0.0024476808224207563,
      "eval_loss": 4.124938488006592,
      "eval_runtime": 566.6527,
      "eval_samples_per_second": 18.216,
      "eval_steps_per_second": 4.555,
      "step": 15
    },
    {
      "epoch": 0.0029372169869049075,
      "grad_norm": 0.3844073712825775,
      "learning_rate": 9.045084971874738e-05,
      "loss": 4.0048,
      "step": 18
    },
    {
      "epoch": 0.003263574429894342,
      "eval_loss": 3.9966297149658203,
      "eval_runtime": 566.8635,
      "eval_samples_per_second": 18.209,
      "eval_steps_per_second": 4.553,
      "step": 20
    },
    {
      "epoch": 0.0034267531513890587,
      "grad_norm": 0.4449733793735504,
      "learning_rate": 8.247240241650918e-05,
      "loss": 4.0083,
      "step": 21
    },
    {
      "epoch": 0.00391628931587321,
      "grad_norm": 0.42930564284324646,
      "learning_rate": 7.269952498697734e-05,
      "loss": 3.941,
      "step": 24
    },
    {
      "epoch": 0.0040794680373679275,
      "eval_loss": 3.887979030609131,
      "eval_runtime": 566.9149,
      "eval_samples_per_second": 18.207,
      "eval_steps_per_second": 4.553,
      "step": 25
    },
    {
      "epoch": 0.004405825480357361,
      "grad_norm": 0.3909703493118286,
      "learning_rate": 6.167226819279528e-05,
      "loss": 3.8694,
      "step": 27
    },
    {
      "epoch": 0.004895361644841513,
      "grad_norm": 0.45430412888526917,
      "learning_rate": 5e-05,
      "loss": 3.8418,
      "step": 30
    },
    {
      "epoch": 0.004895361644841513,
      "eval_loss": 3.8029263019561768,
      "eval_runtime": 566.7579,
      "eval_samples_per_second": 18.212,
      "eval_steps_per_second": 4.554,
      "step": 30
    },
    {
      "epoch": 0.005384897809325664,
      "grad_norm": 0.4366946518421173,
      "learning_rate": 3.832773180720475e-05,
      "loss": 3.8492,
      "step": 33
    },
    {
      "epoch": 0.005711255252315098,
      "eval_loss": 3.7442965507507324,
      "eval_runtime": 566.625,
      "eval_samples_per_second": 18.217,
      "eval_steps_per_second": 4.555,
      "step": 35
    },
    {
      "epoch": 0.005874433973809815,
      "grad_norm": 0.4561040699481964,
      "learning_rate": 2.7300475013022663e-05,
      "loss": 3.7245,
      "step": 36
    },
    {
      "epoch": 0.006363970138293967,
      "grad_norm": 0.443773090839386,
      "learning_rate": 1.7527597583490822e-05,
      "loss": 3.7409,
      "step": 39
    },
    {
      "epoch": 0.006527148859788684,
      "eval_loss": 3.7084908485412598,
      "eval_runtime": 566.7669,
      "eval_samples_per_second": 18.212,
      "eval_steps_per_second": 4.554,
      "step": 40
    },
    {
      "epoch": 0.006853506302778117,
      "grad_norm": 0.39237648248672485,
      "learning_rate": 9.549150281252633e-06,
      "loss": 3.7001,
      "step": 42
    },
    {
      "epoch": 0.007343042467262269,
      "grad_norm": 0.4126656949520111,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 3.6818,
      "step": 45
    },
    {
      "epoch": 0.007343042467262269,
      "eval_loss": 3.6934754848480225,
      "eval_runtime": 566.9152,
      "eval_samples_per_second": 18.207,
      "eval_steps_per_second": 4.553,
      "step": 45
    },
    {
      "epoch": 0.00783257863174642,
      "grad_norm": 0.44614043831825256,
      "learning_rate": 6.15582970243117e-07,
      "loss": 3.7544,
      "step": 48
    },
    {
      "epoch": 0.008158936074735855,
      "eval_loss": 3.690667152404785,
      "eval_runtime": 567.1497,
      "eval_samples_per_second": 18.2,
      "eval_steps_per_second": 4.551,
      "step": 50
    }
  ],
  "logging_steps": 3,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.424240737353728e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}