{ "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 30, "global_step": 150, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0, "eval_loss": 2.4011104106903076, "eval_runtime": 0.605, "eval_samples_per_second": 1.653, "eval_steps_per_second": 1.653, "step": 0 }, { "epoch": 0.013333333333333334, "grad_norm": 0.35604148352305487, "learning_rate": 3.3333333333333333e-06, "loss": 1.8606, "step": 1 }, { "epoch": 0.06666666666666667, "grad_norm": 0.5574997406752219, "learning_rate": 1.6666666666666667e-05, "loss": 2.0219, "step": 5 }, { "epoch": 0.13333333333333333, "grad_norm": 0.5379445375024249, "learning_rate": 3.3333333333333335e-05, "loss": 2.1694, "step": 10 }, { "epoch": 0.2, "grad_norm": 0.6627891598028803, "learning_rate": 5e-05, "loss": 1.3957, "step": 15 }, { "epoch": 0.26666666666666666, "grad_norm": 0.49843000461804543, "learning_rate": 4.983095894354858e-05, "loss": 0.656, "step": 20 }, { "epoch": 0.3333333333333333, "grad_norm": 0.2492706497489882, "learning_rate": 4.9326121764495596e-05, "loss": 0.5445, "step": 25 }, { "epoch": 0.4, "grad_norm": 0.2172063620520647, "learning_rate": 4.849231551964771e-05, "loss": 0.371, "step": 30 }, { "epoch": 0.4, "eval_loss": 0.4940870702266693, "eval_runtime": 0.9536, "eval_samples_per_second": 1.049, "eval_steps_per_second": 1.049, "step": 30 }, { "epoch": 0.4666666666666667, "grad_norm": 0.1708043354995214, "learning_rate": 4.734081600808531e-05, "loss": 0.471, "step": 35 }, { "epoch": 0.5333333333333333, "grad_norm": 0.1967513660567036, "learning_rate": 4.588719528532342e-05, "loss": 0.4045, "step": 40 }, { "epoch": 0.6, "grad_norm": 0.18707592435572035, "learning_rate": 4.415111107797445e-05, "loss": 0.3781, "step": 45 }, { "epoch": 0.6666666666666666, "grad_norm": 0.21910920665560382, "learning_rate": 4.215604094671835e-05, "loss": 0.3267, "step": 50 }, { "epoch": 0.7333333333333333, "grad_norm": 0.23631888063329412, "learning_rate": 3.9928964792569655e-05, "loss": 0.3935, "step": 55 }, { "epoch": 0.8, "grad_norm": 0.3259968304936835, "learning_rate": 3.7500000000000003e-05, "loss": 0.4005, "step": 60 }, { "epoch": 0.8, "eval_loss": 0.38908952474594116, "eval_runtime": 0.3176, "eval_samples_per_second": 3.149, "eval_steps_per_second": 3.149, "step": 60 }, { "epoch": 0.8666666666666667, "grad_norm": 0.2599899397465439, "learning_rate": 3.490199415097892e-05, "loss": 0.389, "step": 65 }, { "epoch": 0.9333333333333333, "grad_norm": 0.19275934165020034, "learning_rate": 3.217008081777726e-05, "loss": 0.4284, "step": 70 }, { "epoch": 1.0, "grad_norm": 0.18294695368361824, "learning_rate": 2.9341204441673266e-05, "loss": 0.3751, "step": 75 }, { "epoch": 1.0666666666666667, "grad_norm": 0.16629401869634053, "learning_rate": 2.6453620722761896e-05, "loss": 0.3475, "step": 80 }, { "epoch": 1.1333333333333333, "grad_norm": 0.19145723138502144, "learning_rate": 2.3546379277238107e-05, "loss": 0.3095, "step": 85 }, { "epoch": 1.2, "grad_norm": 0.2273839858973757, "learning_rate": 2.0658795558326743e-05, "loss": 0.359, "step": 90 }, { "epoch": 1.2, "eval_loss": 0.33637693524360657, "eval_runtime": 0.3067, "eval_samples_per_second": 3.26, "eval_steps_per_second": 3.26, "step": 90 }, { "epoch": 1.2666666666666666, "grad_norm": 0.20882813523302898, "learning_rate": 1.7829919182222752e-05, "loss": 0.3523, "step": 95 }, { "epoch": 1.3333333333333333, "grad_norm": 0.20666840634387143, "learning_rate": 1.509800584902108e-05, "loss": 0.3846, "step": 100 }, { "epoch": 1.4, "grad_norm": 0.23847499200045513, "learning_rate": 1.2500000000000006e-05, "loss": 0.3208, "step": 105 }, { "epoch": 1.4666666666666668, "grad_norm": 0.1708590152909707, "learning_rate": 1.0071035207430352e-05, "loss": 0.3078, "step": 110 }, { "epoch": 1.5333333333333332, "grad_norm": 0.17472548544124877, "learning_rate": 7.843959053281663e-06, "loss": 0.2848, "step": 115 }, { "epoch": 1.6, "grad_norm": 0.25184592766412545, "learning_rate": 5.848888922025553e-06, "loss": 0.3634, "step": 120 }, { "epoch": 1.6, "eval_loss": 0.33655136823654175, "eval_runtime": 0.3022, "eval_samples_per_second": 3.309, "eval_steps_per_second": 3.309, "step": 120 }, { "epoch": 1.6666666666666665, "grad_norm": 0.2662568103968219, "learning_rate": 4.112804714676594e-06, "loss": 0.2798, "step": 125 }, { "epoch": 1.7333333333333334, "grad_norm": 0.3756787865790234, "learning_rate": 2.659183991914696e-06, "loss": 0.3606, "step": 130 }, { "epoch": 1.8, "grad_norm": 0.23854788078442946, "learning_rate": 1.5076844803522922e-06, "loss": 0.2923, "step": 135 }, { "epoch": 1.8666666666666667, "grad_norm": 0.22773110483844683, "learning_rate": 6.738782355044049e-07, "loss": 0.2871, "step": 140 }, { "epoch": 1.9333333333333333, "grad_norm": 0.31452834717041517, "learning_rate": 1.6904105645142444e-07, "loss": 0.2824, "step": 145 }, { "epoch": 2.0, "grad_norm": 0.26528862188423696, "learning_rate": 0.0, "loss": 0.2806, "step": 150 }, { "epoch": 2.0, "eval_loss": 0.33367061614990234, "eval_runtime": 0.3024, "eval_samples_per_second": 3.307, "eval_steps_per_second": 3.307, "step": 150 }, { "epoch": 2.0, "step": 150, "total_flos": 2955191943168.0, "train_loss": 0.5168582518895467, "train_runtime": 367.9761, "train_samples_per_second": 0.815, "train_steps_per_second": 0.408 } ], "logging_steps": 5, "max_steps": 150, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2955191943168.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }