{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.3333333333333333, "eval_steps": 50, "global_step": 1000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "eval_loss": 1.9955005645751953, "eval_runtime": 2.9988, "eval_samples_per_second": 52.021, "eval_steps_per_second": 2.668, "step": 2 }, { "epoch": 0.06666666666666667, "grad_norm": 6.4122138023376465, "learning_rate": 1.3333333333333334e-06, "loss": 1.7197, "step": 50 }, { "epoch": 0.06666666666666667, "eval_loss": 1.0588183403015137, "eval_runtime": 2.9928, "eval_samples_per_second": 52.126, "eval_steps_per_second": 2.673, "step": 50 }, { "epoch": 0.13333333333333333, "grad_norm": 6.253124237060547, "learning_rate": 2.666666666666667e-06, "loss": 0.8959, "step": 100 }, { "epoch": 0.13333333333333333, "eval_loss": 0.8088705539703369, "eval_runtime": 2.9651, "eval_samples_per_second": 52.613, "eval_steps_per_second": 2.698, "step": 100 }, { "epoch": 0.2, "grad_norm": 3.520400285720825, "learning_rate": 4.000000000000001e-06, "loss": 0.7838, "step": 150 }, { "epoch": 0.2, "eval_loss": 0.7823242545127869, "eval_runtime": 2.9843, "eval_samples_per_second": 52.274, "eval_steps_per_second": 2.681, "step": 150 }, { "epoch": 0.26666666666666666, "grad_norm": 2.8844940662384033, "learning_rate": 5.333333333333334e-06, "loss": 0.7432, "step": 200 }, { "epoch": 0.26666666666666666, "eval_loss": 0.7717527747154236, "eval_runtime": 2.9727, "eval_samples_per_second": 52.478, "eval_steps_per_second": 2.691, "step": 200 }, { "epoch": 0.3333333333333333, "grad_norm": 3.405369997024536, "learning_rate": 6.666666666666667e-06, "loss": 0.7305, "step": 250 }, { "epoch": 0.3333333333333333, "eval_loss": 0.7675933241844177, "eval_runtime": 2.9639, "eval_samples_per_second": 52.633, "eval_steps_per_second": 2.699, "step": 250 }, { "epoch": 0.4, "grad_norm": 3.4058008193969727, "learning_rate": 8.000000000000001e-06, "loss": 0.7735, "step": 300 }, { "epoch": 0.4, "eval_loss": 0.7630166411399841, "eval_runtime": 2.9748, "eval_samples_per_second": 52.441, "eval_steps_per_second": 2.689, "step": 300 }, { "epoch": 0.4666666666666667, "grad_norm": 3.8937957286834717, "learning_rate": 9.333333333333334e-06, "loss": 0.765, "step": 350 }, { "epoch": 0.4666666666666667, "eval_loss": 0.76200932264328, "eval_runtime": 2.9755, "eval_samples_per_second": 52.429, "eval_steps_per_second": 2.689, "step": 350 }, { "epoch": 0.5333333333333333, "grad_norm": 3.0671796798706055, "learning_rate": 1.0666666666666667e-05, "loss": 0.7693, "step": 400 }, { "epoch": 0.5333333333333333, "eval_loss": 0.7625126838684082, "eval_runtime": 2.9804, "eval_samples_per_second": 52.343, "eval_steps_per_second": 2.684, "step": 400 }, { "epoch": 0.6, "grad_norm": 2.562283754348755, "learning_rate": 1.2e-05, "loss": 0.7143, "step": 450 }, { "epoch": 0.6, "eval_loss": 0.7705833911895752, "eval_runtime": 2.9658, "eval_samples_per_second": 52.6, "eval_steps_per_second": 2.697, "step": 450 }, { "epoch": 0.6666666666666666, "grad_norm": 3.059102773666382, "learning_rate": 1.3333333333333333e-05, "loss": 0.7439, "step": 500 }, { "epoch": 0.6666666666666666, "eval_loss": 0.7748900651931763, "eval_runtime": 2.9693, "eval_samples_per_second": 52.538, "eval_steps_per_second": 2.694, "step": 500 }, { "epoch": 0.7333333333333333, "grad_norm": 2.8608345985412598, "learning_rate": 1.4666666666666666e-05, "loss": 0.7618, "step": 550 }, { "epoch": 0.7333333333333333, "eval_loss": 0.7838959097862244, "eval_runtime": 2.9626, "eval_samples_per_second": 52.656, "eval_steps_per_second": 2.7, "step": 550 }, { "epoch": 0.8, "grad_norm": 4.955874919891357, "learning_rate": 1.6000000000000003e-05, "loss": 0.7922, "step": 600 }, { "epoch": 0.8, "eval_loss": 0.7905844449996948, "eval_runtime": 2.9698, "eval_samples_per_second": 52.529, "eval_steps_per_second": 2.694, "step": 600 }, { "epoch": 0.8666666666666667, "grad_norm": 2.5499260425567627, "learning_rate": 1.7333333333333336e-05, "loss": 0.763, "step": 650 }, { "epoch": 0.8666666666666667, "eval_loss": 0.7975873351097107, "eval_runtime": 2.9521, "eval_samples_per_second": 52.843, "eval_steps_per_second": 2.71, "step": 650 }, { "epoch": 0.9333333333333333, "grad_norm": 2.624908924102783, "learning_rate": 1.866666666666667e-05, "loss": 0.8084, "step": 700 }, { "epoch": 0.9333333333333333, "eval_loss": 0.800664484500885, "eval_runtime": 2.9597, "eval_samples_per_second": 52.707, "eval_steps_per_second": 2.703, "step": 700 }, { "epoch": 1.0, "grad_norm": 2.5612921714782715, "learning_rate": 2e-05, "loss": 0.759, "step": 750 }, { "epoch": 1.0, "eval_loss": 0.806624710559845, "eval_runtime": 2.9743, "eval_samples_per_second": 52.448, "eval_steps_per_second": 2.69, "step": 750 }, { "epoch": 1.0666666666666667, "grad_norm": 2.9441487789154053, "learning_rate": 1.999729241179462e-05, "loss": 0.5238, "step": 800 }, { "epoch": 1.0666666666666667, "eval_loss": 0.8611153960227966, "eval_runtime": 2.965, "eval_samples_per_second": 52.613, "eval_steps_per_second": 2.698, "step": 800 }, { "epoch": 1.1333333333333333, "grad_norm": 2.583162307739258, "learning_rate": 1.998917111338525e-05, "loss": 0.5057, "step": 850 }, { "epoch": 1.1333333333333333, "eval_loss": 0.8437222242355347, "eval_runtime": 2.9539, "eval_samples_per_second": 52.812, "eval_steps_per_second": 2.708, "step": 850 }, { "epoch": 1.2, "grad_norm": 2.984715700149536, "learning_rate": 1.9975640502598243e-05, "loss": 0.5233, "step": 900 }, { "epoch": 1.2, "eval_loss": 0.8486198782920837, "eval_runtime": 2.9598, "eval_samples_per_second": 52.706, "eval_steps_per_second": 2.703, "step": 900 }, { "epoch": 1.2666666666666666, "grad_norm": 2.890220880508423, "learning_rate": 1.9956707906498046e-05, "loss": 0.5477, "step": 950 }, { "epoch": 1.2666666666666666, "eval_loss": 0.8472152948379517, "eval_runtime": 2.9694, "eval_samples_per_second": 52.536, "eval_steps_per_second": 2.694, "step": 950 }, { "epoch": 1.3333333333333333, "grad_norm": 2.1137006282806396, "learning_rate": 1.9932383577419432e-05, "loss": 0.5512, "step": 1000 }, { "epoch": 1.3333333333333333, "eval_loss": 0.8495014905929565, "eval_runtime": 2.9684, "eval_samples_per_second": 52.553, "eval_steps_per_second": 2.695, "step": 1000 } ], "logging_steps": 50, "max_steps": 7500, "num_input_tokens_seen": 0, "num_train_epochs": 10, "save_steps": 500, "total_flos": 4.703948926405837e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }