|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 1.3333333333333333, |
|
"eval_steps": 50, |
|
"global_step": 1000, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.0026666666666666666, |
|
"eval_loss": 1.9955005645751953, |
|
"eval_runtime": 2.9988, |
|
"eval_samples_per_second": 52.021, |
|
"eval_steps_per_second": 2.668, |
|
"step": 2 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"grad_norm": 6.4122138023376465, |
|
"learning_rate": 1.3333333333333334e-06, |
|
"loss": 1.7197, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.06666666666666667, |
|
"eval_loss": 1.0588183403015137, |
|
"eval_runtime": 2.9928, |
|
"eval_samples_per_second": 52.126, |
|
"eval_steps_per_second": 2.673, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 6.253124237060547, |
|
"learning_rate": 2.666666666666667e-06, |
|
"loss": 0.8959, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"eval_loss": 0.8088705539703369, |
|
"eval_runtime": 2.9651, |
|
"eval_samples_per_second": 52.613, |
|
"eval_steps_per_second": 2.698, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"grad_norm": 3.520400285720825, |
|
"learning_rate": 4.000000000000001e-06, |
|
"loss": 0.7838, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"eval_loss": 0.7823242545127869, |
|
"eval_runtime": 2.9843, |
|
"eval_samples_per_second": 52.274, |
|
"eval_steps_per_second": 2.681, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 2.8844940662384033, |
|
"learning_rate": 5.333333333333334e-06, |
|
"loss": 0.7432, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"eval_loss": 0.7717527747154236, |
|
"eval_runtime": 2.9727, |
|
"eval_samples_per_second": 52.478, |
|
"eval_steps_per_second": 2.691, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"grad_norm": 3.405369997024536, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 0.7305, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.3333333333333333, |
|
"eval_loss": 0.7675933241844177, |
|
"eval_runtime": 2.9639, |
|
"eval_samples_per_second": 52.633, |
|
"eval_steps_per_second": 2.699, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 3.4058008193969727, |
|
"learning_rate": 8.000000000000001e-06, |
|
"loss": 0.7735, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"eval_loss": 0.7630166411399841, |
|
"eval_runtime": 2.9748, |
|
"eval_samples_per_second": 52.441, |
|
"eval_steps_per_second": 2.689, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"grad_norm": 3.8937957286834717, |
|
"learning_rate": 9.333333333333334e-06, |
|
"loss": 0.765, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.4666666666666667, |
|
"eval_loss": 0.76200932264328, |
|
"eval_runtime": 2.9755, |
|
"eval_samples_per_second": 52.429, |
|
"eval_steps_per_second": 2.689, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 3.0671796798706055, |
|
"learning_rate": 1.0666666666666667e-05, |
|
"loss": 0.7693, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"eval_loss": 0.7625126838684082, |
|
"eval_runtime": 2.9804, |
|
"eval_samples_per_second": 52.343, |
|
"eval_steps_per_second": 2.684, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"grad_norm": 2.562283754348755, |
|
"learning_rate": 1.2e-05, |
|
"loss": 0.7143, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.6, |
|
"eval_loss": 0.7705833911895752, |
|
"eval_runtime": 2.9658, |
|
"eval_samples_per_second": 52.6, |
|
"eval_steps_per_second": 2.697, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 3.059102773666382, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.7439, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"eval_loss": 0.7748900651931763, |
|
"eval_runtime": 2.9693, |
|
"eval_samples_per_second": 52.538, |
|
"eval_steps_per_second": 2.694, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"grad_norm": 2.8608345985412598, |
|
"learning_rate": 1.4666666666666666e-05, |
|
"loss": 0.7618, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.7333333333333333, |
|
"eval_loss": 0.7838959097862244, |
|
"eval_runtime": 2.9626, |
|
"eval_samples_per_second": 52.656, |
|
"eval_steps_per_second": 2.7, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 4.955874919891357, |
|
"learning_rate": 1.6000000000000003e-05, |
|
"loss": 0.7922, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"eval_loss": 0.7905844449996948, |
|
"eval_runtime": 2.9698, |
|
"eval_samples_per_second": 52.529, |
|
"eval_steps_per_second": 2.694, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"grad_norm": 2.5499260425567627, |
|
"learning_rate": 1.7333333333333336e-05, |
|
"loss": 0.763, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.8666666666666667, |
|
"eval_loss": 0.7975873351097107, |
|
"eval_runtime": 2.9521, |
|
"eval_samples_per_second": 52.843, |
|
"eval_steps_per_second": 2.71, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 2.624908924102783, |
|
"learning_rate": 1.866666666666667e-05, |
|
"loss": 0.8084, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"eval_loss": 0.800664484500885, |
|
"eval_runtime": 2.9597, |
|
"eval_samples_per_second": 52.707, |
|
"eval_steps_per_second": 2.703, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"grad_norm": 2.5612921714782715, |
|
"learning_rate": 2e-05, |
|
"loss": 0.759, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_loss": 0.806624710559845, |
|
"eval_runtime": 2.9743, |
|
"eval_samples_per_second": 52.448, |
|
"eval_steps_per_second": 2.69, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 2.9441487789154053, |
|
"learning_rate": 1.999729241179462e-05, |
|
"loss": 0.5238, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"eval_loss": 0.8611153960227966, |
|
"eval_runtime": 2.965, |
|
"eval_samples_per_second": 52.613, |
|
"eval_steps_per_second": 2.698, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"grad_norm": 2.583162307739258, |
|
"learning_rate": 1.998917111338525e-05, |
|
"loss": 0.5057, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 1.1333333333333333, |
|
"eval_loss": 0.8437222242355347, |
|
"eval_runtime": 2.9539, |
|
"eval_samples_per_second": 52.812, |
|
"eval_steps_per_second": 2.708, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 2.984715700149536, |
|
"learning_rate": 1.9975640502598243e-05, |
|
"loss": 0.5233, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"eval_loss": 0.8486198782920837, |
|
"eval_runtime": 2.9598, |
|
"eval_samples_per_second": 52.706, |
|
"eval_steps_per_second": 2.703, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"grad_norm": 2.890220880508423, |
|
"learning_rate": 1.9956707906498046e-05, |
|
"loss": 0.5477, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 1.2666666666666666, |
|
"eval_loss": 0.8472152948379517, |
|
"eval_runtime": 2.9694, |
|
"eval_samples_per_second": 52.536, |
|
"eval_steps_per_second": 2.694, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 2.1137006282806396, |
|
"learning_rate": 1.9932383577419432e-05, |
|
"loss": 0.5512, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"eval_loss": 0.8495014905929565, |
|
"eval_runtime": 2.9684, |
|
"eval_samples_per_second": 52.553, |
|
"eval_steps_per_second": 2.695, |
|
"step": 1000 |
|
} |
|
], |
|
"logging_steps": 50, |
|
"max_steps": 7500, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 10, |
|
"save_steps": 500, |
|
"total_flos": 4.703948926405837e+16, |
|
"train_batch_size": 1, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|