Training in progress, step 50, checkpoint

e7dc3b3 verified 20 days ago

9.91 kB

	{
	"best_metric": 11.923681259155273,
	"best_model_checkpoint": "miner_id_24/checkpoint-50",
	"epoch": 0.24783147459727387,
	"eval_steps": 50,
	"global_step": 50,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004956629491945477,
	"grad_norm": 0.029702121391892433,
	"learning_rate": 5e-06,
	"loss": 11.9338,
	"step": 1
	},
	{
	"epoch": 0.004956629491945477,
	"eval_loss": 11.932662010192871,
	"eval_runtime": 3.4335,
	"eval_samples_per_second": 99.025,
	"eval_steps_per_second": 24.756,
	"step": 1
	},
	{
	"epoch": 0.009913258983890954,
	"grad_norm": 0.029551642015576363,
	"learning_rate": 1e-05,
	"loss": 11.933,
	"step": 2
	},
	{
	"epoch": 0.01486988847583643,
	"grad_norm": 0.02150936797261238,
	"learning_rate": 1.5e-05,
	"loss": 11.9333,
	"step": 3
	},
	{
	"epoch": 0.01982651796778191,
	"grad_norm": 0.031518660485744476,
	"learning_rate": 2e-05,
	"loss": 11.9315,
	"step": 4
	},
	{
	"epoch": 0.024783147459727387,
	"grad_norm": 0.01814820058643818,
	"learning_rate": 2.5e-05,
	"loss": 11.9329,
	"step": 5
	},
	{
	"epoch": 0.02973977695167286,
	"grad_norm": 0.022795800119638443,
	"learning_rate": 3e-05,
	"loss": 11.9295,
	"step": 6
	},
	{
	"epoch": 0.03469640644361834,
	"grad_norm": 0.02691086195409298,
	"learning_rate": 3.5e-05,
	"loss": 11.9328,
	"step": 7
	},
	{
	"epoch": 0.03965303593556382,
	"grad_norm": 0.021017029881477356,
	"learning_rate": 4e-05,
	"loss": 11.9363,
	"step": 8
	},
	{
	"epoch": 0.04460966542750929,
	"grad_norm": 0.02902752347290516,
	"learning_rate": 4.5e-05,
	"loss": 11.9329,
	"step": 9
	},
	{
	"epoch": 0.04956629491945477,
	"grad_norm": 0.025535089895129204,
	"learning_rate": 5e-05,
	"loss": 11.9316,
	"step": 10
	},
	{
	"epoch": 0.05452292441140025,
	"grad_norm": 0.018343951553106308,
	"learning_rate": 5.500000000000001e-05,
	"loss": 11.9298,
	"step": 11
	},
	{
	"epoch": 0.05947955390334572,
	"grad_norm": 0.028216585516929626,
	"learning_rate": 6e-05,
	"loss": 11.9309,
	"step": 12
	},
	{
	"epoch": 0.0644361833952912,
	"grad_norm": 0.04306847229599953,
	"learning_rate": 6.500000000000001e-05,
	"loss": 11.9312,
	"step": 13
	},
	{
	"epoch": 0.06939281288723669,
	"grad_norm": 0.032149795442819595,
	"learning_rate": 7e-05,
	"loss": 11.9318,
	"step": 14
	},
	{
	"epoch": 0.07434944237918216,
	"grad_norm": 0.031103266403079033,
	"learning_rate": 7.500000000000001e-05,
	"loss": 11.9308,
	"step": 15
	},
	{
	"epoch": 0.07930607187112763,
	"grad_norm": 0.023666374385356903,
	"learning_rate": 8e-05,
	"loss": 11.9331,
	"step": 16
	},
	{
	"epoch": 0.08426270136307311,
	"grad_norm": 0.04397472366690636,
	"learning_rate": 8.5e-05,
	"loss": 11.9318,
	"step": 17
	},
	{
	"epoch": 0.08921933085501858,
	"grad_norm": 0.03761634603142738,
	"learning_rate": 9e-05,
	"loss": 11.9327,
	"step": 18
	},
	{
	"epoch": 0.09417596034696406,
	"grad_norm": 0.03000902198255062,
	"learning_rate": 9.5e-05,
	"loss": 11.9312,
	"step": 19
	},
	{
	"epoch": 0.09913258983890955,
	"grad_norm": 0.04588532820343971,
	"learning_rate": 0.0001,
	"loss": 11.9285,
	"step": 20
	},
	{
	"epoch": 0.10408921933085502,
	"grad_norm": 0.05068815499544144,
	"learning_rate": 9.991845519630678e-05,
	"loss": 11.9334,
	"step": 21
	},
	{
	"epoch": 0.1090458488228005,
	"grad_norm": 0.0575312003493309,
	"learning_rate": 9.967408676742751e-05,
	"loss": 11.9303,
	"step": 22
	},
	{
	"epoch": 0.11400247831474597,
	"grad_norm": 0.05008804053068161,
	"learning_rate": 9.926769179238466e-05,
	"loss": 11.9305,
	"step": 23
	},
	{
	"epoch": 0.11895910780669144,
	"grad_norm": 0.04055539891123772,
	"learning_rate": 9.870059584711668e-05,
	"loss": 11.9322,
	"step": 24
	},
	{
	"epoch": 0.12391573729863693,
	"grad_norm": 0.05720638111233711,
	"learning_rate": 9.797464868072488e-05,
	"loss": 11.928,
	"step": 25
	},
	{
	"epoch": 0.1288723667905824,
	"grad_norm": 0.06328973174095154,
	"learning_rate": 9.709221818197624e-05,
	"loss": 11.9308,
	"step": 26
	},
	{
	"epoch": 0.13382899628252787,
	"grad_norm": 0.05939590185880661,
	"learning_rate": 9.60561826557425e-05,
	"loss": 11.9294,
	"step": 27
	},
	{
	"epoch": 0.13878562577447337,
	"grad_norm": 0.0752195417881012,
	"learning_rate": 9.486992143456792e-05,
	"loss": 11.9302,
	"step": 28
	},
	{
	"epoch": 0.14374225526641884,
	"grad_norm": 0.04964336380362511,
	"learning_rate": 9.353730385598887e-05,
	"loss": 11.9312,
	"step": 29
	},
	{
	"epoch": 0.14869888475836432,
	"grad_norm": 0.07646752148866653,
	"learning_rate": 9.206267664155907e-05,
	"loss": 11.9305,
	"step": 30
	},
	{
	"epoch": 0.1536555142503098,
	"grad_norm": 0.08100369572639465,
	"learning_rate": 9.045084971874738e-05,
	"loss": 11.9292,
	"step": 31
	},
	{
	"epoch": 0.15861214374225527,
	"grad_norm": 0.05317220091819763,
	"learning_rate": 8.870708053195413e-05,
	"loss": 11.9305,
	"step": 32
	},
	{
	"epoch": 0.16356877323420074,
	"grad_norm": 0.11869339644908905,
	"learning_rate": 8.683705689382024e-05,
	"loss": 11.9257,
	"step": 33
	},
	{
	"epoch": 0.16852540272614622,
	"grad_norm": 0.07948697358369827,
	"learning_rate": 8.484687843276469e-05,
	"loss": 11.9298,
	"step": 34
	},
	{
	"epoch": 0.1734820322180917,
	"grad_norm": 0.08774244040250778,
	"learning_rate": 8.274303669726426e-05,
	"loss": 11.9288,
	"step": 35
	},
	{
	"epoch": 0.17843866171003717,
	"grad_norm": 0.13008320331573486,
	"learning_rate": 8.053239398177191e-05,
	"loss": 11.9263,
	"step": 36
	},
	{
	"epoch": 0.18339529120198264,
	"grad_norm": 0.0970505028963089,
	"learning_rate": 7.822216094333847e-05,
	"loss": 11.9288,
	"step": 37
	},
	{
	"epoch": 0.18835192069392812,
	"grad_norm": 0.12324848026037216,
	"learning_rate": 7.58198730819481e-05,
	"loss": 11.9239,
	"step": 38
	},
	{
	"epoch": 0.19330855018587362,
	"grad_norm": 0.08435509353876114,
	"learning_rate": 7.333336616128369e-05,
	"loss": 11.9262,
	"step": 39
	},
	{
	"epoch": 0.1982651796778191,
	"grad_norm": 0.07982442528009415,
	"learning_rate": 7.077075065009433e-05,
	"loss": 11.9263,
	"step": 40
	},
	{
	"epoch": 0.20322180916976457,
	"grad_norm": 0.08218646049499512,
	"learning_rate": 6.814038526753205e-05,
	"loss": 11.9271,
	"step": 41
	},
	{
	"epoch": 0.20817843866171004,
	"grad_norm": 0.10249483585357666,
	"learning_rate": 6.545084971874738e-05,
	"loss": 11.9276,
	"step": 42
	},
	{
	"epoch": 0.21313506815365552,
	"grad_norm": 0.09215902537107468,
	"learning_rate": 6.271091670967436e-05,
	"loss": 11.9282,
	"step": 43
	},
	{
	"epoch": 0.218091697645601,
	"grad_norm": 0.09024009853601456,
	"learning_rate": 5.992952333228728e-05,
	"loss": 11.925,
	"step": 44
	},
	{
	"epoch": 0.22304832713754646,
	"grad_norm": 0.06474387645721436,
	"learning_rate": 5.7115741913664264e-05,
	"loss": 11.9266,
	"step": 45
	},
	{
	"epoch": 0.22800495662949194,
	"grad_norm": 0.08036696910858154,
	"learning_rate": 5.427875042394199e-05,
	"loss": 11.9252,
	"step": 46
	},
	{
	"epoch": 0.23296158612143741,
	"grad_norm": 0.07694265991449356,
	"learning_rate": 5.142780253968481e-05,
	"loss": 11.9237,
	"step": 47
	},
	{
	"epoch": 0.2379182156133829,
	"grad_norm": 0.05151360481977463,
	"learning_rate": 4.85721974603152e-05,
	"loss": 11.9229,
	"step": 48
	},
	{
	"epoch": 0.24287484510532836,
	"grad_norm": 0.09331781417131424,
	"learning_rate": 4.5721249576058027e-05,
	"loss": 11.9232,
	"step": 49
	},
	{
	"epoch": 0.24783147459727387,
	"grad_norm": 0.09337204694747925,
	"learning_rate": 4.288425808633575e-05,
	"loss": 11.9223,
	"step": 50
	},
	{
	"epoch": 0.24783147459727387,
	"eval_loss": 11.923681259155273,
	"eval_runtime": 3.4546,
	"eval_samples_per_second": 98.419,
	"eval_steps_per_second": 24.605,
	"step": 50
	}
	],
	"logging_steps": 1,
	"max_steps": 75,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 5,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 482082816000.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}