nllb_200_600M_fo_en / trainer_state.json

Upload 10 files

a410737 verified 6 months ago

14.8 kB

	{
	"best_metric": 0.5260419845581055,
	"best_model_checkpoint": "nllb_200_distilled_600M_en_fo_bsz_64_epochs_10_no_decay_sprotin+gpt4-fo-en-final/checkpoint-8000",
	"epoch": 2.8116110751117507,
	"eval_steps": 500,
	"global_step": 8000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04,
	"learning_rate": 1.4e-05,
	"loss": 1.0309,
	"step": 100
	},
	{
	"epoch": 0.07,
	"learning_rate": 2.8e-05,
	"loss": 0.7947,
	"step": 200
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.2e-05,
	"loss": 0.7532,
	"step": 300
	},
	{
	"epoch": 0.14,
	"learning_rate": 5.6e-05,
	"loss": 0.7018,
	"step": 400
	},
	{
	"epoch": 0.18,
	"learning_rate": 7e-05,
	"loss": 0.6906,
	"step": 500
	},
	{
	"epoch": 0.18,
	"eval_bleu": 47.5534,
	"eval_chrf++": 63.6048,
	"eval_gen_len": 14.9537,
	"eval_loss": 0.6338649392127991,
	"eval_runtime": 1451.1833,
	"eval_samples_per_second": 5.045,
	"eval_steps_per_second": 2.523,
	"step": 500
	},
	{
	"epoch": 0.21,
	"learning_rate": 6.974955277280858e-05,
	"loss": 0.6521,
	"step": 600
	},
	{
	"epoch": 0.25,
	"learning_rate": 6.949910554561716e-05,
	"loss": 0.6456,
	"step": 700
	},
	{
	"epoch": 0.28,
	"learning_rate": 6.924865831842576e-05,
	"loss": 0.6272,
	"step": 800
	},
	{
	"epoch": 0.32,
	"learning_rate": 6.899821109123434e-05,
	"loss": 0.611,
	"step": 900
	},
	{
	"epoch": 0.35,
	"learning_rate": 6.874776386404293e-05,
	"loss": 0.6053,
	"step": 1000
	},
	{
	"epoch": 0.35,
	"eval_bleu": 48.5345,
	"eval_chrf++": 64.5072,
	"eval_gen_len": 14.9738,
	"eval_loss": 0.5941245555877686,
	"eval_runtime": 1563.9824,
	"eval_samples_per_second": 4.681,
	"eval_steps_per_second": 2.341,
	"step": 1000
	},
	{
	"epoch": 0.39,
	"learning_rate": 6.849731663685151e-05,
	"loss": 0.6083,
	"step": 1100
	},
	{
	"epoch": 0.42,
	"learning_rate": 6.824686940966009e-05,
	"loss": 0.5881,
	"step": 1200
	},
	{
	"epoch": 0.46,
	"learning_rate": 6.799642218246869e-05,
	"loss": 0.5836,
	"step": 1300
	},
	{
	"epoch": 0.49,
	"learning_rate": 6.774597495527727e-05,
	"loss": 0.5865,
	"step": 1400
	},
	{
	"epoch": 0.53,
	"learning_rate": 6.749552772808586e-05,
	"loss": 0.5734,
	"step": 1500
	},
	{
	"epoch": 0.53,
	"eval_bleu": 49.7044,
	"eval_chrf++": 65.4589,
	"eval_gen_len": 15.0074,
	"eval_loss": 0.5721458196640015,
	"eval_runtime": 1595.6062,
	"eval_samples_per_second": 4.588,
	"eval_steps_per_second": 2.294,
	"step": 1500
	},
	{
	"epoch": 0.56,
	"learning_rate": 6.724508050089444e-05,
	"loss": 0.5598,
	"step": 1600
	},
	{
	"epoch": 0.6,
	"learning_rate": 6.699463327370304e-05,
	"loss": 0.5565,
	"step": 1700
	},
	{
	"epoch": 0.63,
	"learning_rate": 6.674418604651162e-05,
	"loss": 0.5615,
	"step": 1800
	},
	{
	"epoch": 0.67,
	"learning_rate": 6.64937388193202e-05,
	"loss": 0.5548,
	"step": 1900
	},
	{
	"epoch": 0.7,
	"learning_rate": 6.624329159212879e-05,
	"loss": 0.5498,
	"step": 2000
	},
	{
	"epoch": 0.7,
	"eval_bleu": 50.272,
	"eval_chrf++": 66.0079,
	"eval_gen_len": 15.0224,
	"eval_loss": 0.5572330355644226,
	"eval_runtime": 1598.5782,
	"eval_samples_per_second": 4.58,
	"eval_steps_per_second": 2.29,
	"step": 2000
	},
	{
	"epoch": 0.74,
	"learning_rate": 6.599284436493739e-05,
	"loss": 0.545,
	"step": 2100
	},
	{
	"epoch": 0.77,
	"learning_rate": 6.574239713774597e-05,
	"loss": 0.5348,
	"step": 2200
	},
	{
	"epoch": 0.81,
	"learning_rate": 6.549194991055455e-05,
	"loss": 0.548,
	"step": 2300
	},
	{
	"epoch": 0.84,
	"learning_rate": 6.524150268336314e-05,
	"loss": 0.5346,
	"step": 2400
	},
	{
	"epoch": 0.88,
	"learning_rate": 6.499105545617173e-05,
	"loss": 0.5339,
	"step": 2500
	},
	{
	"epoch": 0.88,
	"eval_bleu": 50.7705,
	"eval_chrf++": 66.3386,
	"eval_gen_len": 15.0134,
	"eval_loss": 0.5522322058677673,
	"eval_runtime": 1606.2109,
	"eval_samples_per_second": 4.558,
	"eval_steps_per_second": 2.279,
	"step": 2500
	},
	{
	"epoch": 0.91,
	"learning_rate": 6.474060822898032e-05,
	"loss": 0.5346,
	"step": 2600
	},
	{
	"epoch": 0.95,
	"learning_rate": 6.44901610017889e-05,
	"loss": 0.5288,
	"step": 2700
	},
	{
	"epoch": 0.98,
	"learning_rate": 6.423971377459748e-05,
	"loss": 0.5356,
	"step": 2800
	},
	{
	"epoch": 1.02,
	"learning_rate": 6.398926654740608e-05,
	"loss": 0.4816,
	"step": 2900
	},
	{
	"epoch": 1.05,
	"learning_rate": 6.373881932021467e-05,
	"loss": 0.46,
	"step": 3000
	},
	{
	"epoch": 1.05,
	"eval_bleu": 51.2211,
	"eval_chrf++": 66.6581,
	"eval_gen_len": 14.9399,
	"eval_loss": 0.5472458004951477,
	"eval_runtime": 1577.1872,
	"eval_samples_per_second": 4.642,
	"eval_steps_per_second": 2.321,
	"step": 3000
	},
	{
	"epoch": 1.09,
	"learning_rate": 6.348837209302325e-05,
	"loss": 0.4624,
	"step": 3100
	},
	{
	"epoch": 1.12,
	"learning_rate": 6.323792486583183e-05,
	"loss": 0.4614,
	"step": 3200
	},
	{
	"epoch": 1.16,
	"learning_rate": 6.298747763864043e-05,
	"loss": 0.4578,
	"step": 3300
	},
	{
	"epoch": 1.19,
	"learning_rate": 6.273703041144901e-05,
	"loss": 0.4639,
	"step": 3400
	},
	{
	"epoch": 1.23,
	"learning_rate": 6.24865831842576e-05,
	"loss": 0.4528,
	"step": 3500
	},
	{
	"epoch": 1.23,
	"eval_bleu": 51.5852,
	"eval_chrf++": 66.9915,
	"eval_gen_len": 15.0586,
	"eval_loss": 0.5428858995437622,
	"eval_runtime": 1593.4651,
	"eval_samples_per_second": 4.594,
	"eval_steps_per_second": 2.298,
	"step": 3500
	},
	{
	"epoch": 1.27,
	"learning_rate": 6.22361359570662e-05,
	"loss": 0.4575,
	"step": 3600
	},
	{
	"epoch": 1.3,
	"learning_rate": 6.198568872987478e-05,
	"loss": 0.4402,
	"step": 3700
	},
	{
	"epoch": 1.34,
	"learning_rate": 6.173524150268336e-05,
	"loss": 0.4491,
	"step": 3800
	},
	{
	"epoch": 1.37,
	"learning_rate": 6.148479427549194e-05,
	"loss": 0.4621,
	"step": 3900
	},
	{
	"epoch": 1.41,
	"learning_rate": 6.123434704830053e-05,
	"loss": 0.4434,
	"step": 4000
	},
	{
	"epoch": 1.41,
	"eval_bleu": 51.6156,
	"eval_chrf++": 67.0015,
	"eval_gen_len": 14.9593,
	"eval_loss": 0.5395042300224304,
	"eval_runtime": 1640.5913,
	"eval_samples_per_second": 4.462,
	"eval_steps_per_second": 2.232,
	"step": 4000
	},
	{
	"epoch": 1.44,
	"learning_rate": 6.098389982110912e-05,
	"loss": 0.4472,
	"step": 4100
	},
	{
	"epoch": 1.48,
	"learning_rate": 6.073345259391771e-05,
	"loss": 0.45,
	"step": 4200
	},
	{
	"epoch": 1.51,
	"learning_rate": 6.048300536672629e-05,
	"loss": 0.438,
	"step": 4300
	},
	{
	"epoch": 1.55,
	"learning_rate": 6.0232558139534877e-05,
	"loss": 0.4506,
	"step": 4400
	},
	{
	"epoch": 1.58,
	"learning_rate": 5.998211091234346e-05,
	"loss": 0.4356,
	"step": 4500
	},
	{
	"epoch": 1.58,
	"eval_bleu": 51.8932,
	"eval_chrf++": 67.156,
	"eval_gen_len": 14.9581,
	"eval_loss": 0.5352627038955688,
	"eval_runtime": 1610.6884,
	"eval_samples_per_second": 4.545,
	"eval_steps_per_second": 2.273,
	"step": 4500
	},
	{
	"epoch": 1.62,
	"learning_rate": 5.973166368515206e-05,
	"loss": 0.4459,
	"step": 4600
	},
	{
	"epoch": 1.65,
	"learning_rate": 5.948121645796064e-05,
	"loss": 0.4354,
	"step": 4700
	},
	{
	"epoch": 1.69,
	"learning_rate": 5.9230769230769225e-05,
	"loss": 0.4498,
	"step": 4800
	},
	{
	"epoch": 1.72,
	"learning_rate": 5.898032200357781e-05,
	"loss": 0.4395,
	"step": 4900
	},
	{
	"epoch": 1.76,
	"learning_rate": 5.87298747763864e-05,
	"loss": 0.4404,
	"step": 5000
	},
	{
	"epoch": 1.76,
	"eval_bleu": 52.2258,
	"eval_chrf++": 67.5549,
	"eval_gen_len": 15.0285,
	"eval_loss": 0.5267295241355896,
	"eval_runtime": 1625.9049,
	"eval_samples_per_second": 4.503,
	"eval_steps_per_second": 2.252,
	"step": 5000
	},
	{
	"epoch": 1.79,
	"learning_rate": 5.847942754919499e-05,
	"loss": 0.4362,
	"step": 5100
	},
	{
	"epoch": 1.83,
	"learning_rate": 5.822898032200357e-05,
	"loss": 0.4351,
	"step": 5200
	},
	{
	"epoch": 1.86,
	"learning_rate": 5.7978533094812156e-05,
	"loss": 0.4386,
	"step": 5300
	},
	{
	"epoch": 1.9,
	"learning_rate": 5.7728085867620747e-05,
	"loss": 0.435,
	"step": 5400
	},
	{
	"epoch": 1.93,
	"learning_rate": 5.747763864042934e-05,
	"loss": 0.434,
	"step": 5500
	},
	{
	"epoch": 1.93,
	"eval_bleu": 52.0504,
	"eval_chrf++": 67.3977,
	"eval_gen_len": 15.0447,
	"eval_loss": 0.5267728567123413,
	"eval_runtime": 1575.9325,
	"eval_samples_per_second": 4.646,
	"eval_steps_per_second": 2.323,
	"step": 5500
	},
	{
	"epoch": 1.97,
	"learning_rate": 5.722719141323792e-05,
	"loss": 0.4442,
	"step": 5600
	},
	{
	"epoch": 2.0,
	"learning_rate": 5.6976744186046504e-05,
	"loss": 0.4287,
	"step": 5700
	},
	{
	"epoch": 2.04,
	"learning_rate": 5.6726296958855094e-05,
	"loss": 0.3744,
	"step": 5800
	},
	{
	"epoch": 2.07,
	"learning_rate": 5.647584973166368e-05,
	"loss": 0.3763,
	"step": 5900
	},
	{
	"epoch": 2.11,
	"learning_rate": 5.622540250447227e-05,
	"loss": 0.385,
	"step": 6000
	},
	{
	"epoch": 2.11,
	"eval_bleu": 52.2895,
	"eval_chrf++": 67.5809,
	"eval_gen_len": 15.0462,
	"eval_loss": 0.5324221849441528,
	"eval_runtime": 1597.5578,
	"eval_samples_per_second": 4.583,
	"eval_steps_per_second": 2.292,
	"step": 6000
	},
	{
	"epoch": 2.14,
	"learning_rate": 5.597495527728085e-05,
	"loss": 0.3732,
	"step": 6100
	},
	{
	"epoch": 2.18,
	"learning_rate": 5.572450805008944e-05,
	"loss": 0.3712,
	"step": 6200
	},
	{
	"epoch": 2.21,
	"learning_rate": 5.5474060822898026e-05,
	"loss": 0.3696,
	"step": 6300
	},
	{
	"epoch": 2.25,
	"learning_rate": 5.522361359570661e-05,
	"loss": 0.3814,
	"step": 6400
	},
	{
	"epoch": 2.28,
	"learning_rate": 5.497316636851521e-05,
	"loss": 0.3782,
	"step": 6500
	},
	{
	"epoch": 2.28,
	"eval_bleu": 52.7032,
	"eval_chrf++": 67.8354,
	"eval_gen_len": 15.0145,
	"eval_loss": 0.5296782851219177,
	"eval_runtime": 1601.7393,
	"eval_samples_per_second": 4.571,
	"eval_steps_per_second": 2.286,
	"step": 6500
	},
	{
	"epoch": 2.32,
	"learning_rate": 5.472271914132379e-05,
	"loss": 0.3769,
	"step": 6600
	},
	{
	"epoch": 2.35,
	"learning_rate": 5.4472271914132374e-05,
	"loss": 0.3743,
	"step": 6700
	},
	{
	"epoch": 2.39,
	"learning_rate": 5.422182468694096e-05,
	"loss": 0.3702,
	"step": 6800
	},
	{
	"epoch": 2.43,
	"learning_rate": 5.3971377459749555e-05,
	"loss": 0.374,
	"step": 6900
	},
	{
	"epoch": 2.46,
	"learning_rate": 5.372093023255814e-05,
	"loss": 0.3701,
	"step": 7000
	},
	{
	"epoch": 2.46,
	"eval_bleu": 52.6804,
	"eval_chrf++": 67.801,
	"eval_gen_len": 15.0228,
	"eval_loss": 0.5314484238624573,
	"eval_runtime": 1555.2346,
	"eval_samples_per_second": 4.707,
	"eval_steps_per_second": 2.354,
	"step": 7000
	},
	{
	"epoch": 2.5,
	"learning_rate": 5.347048300536672e-05,
	"loss": 0.3695,
	"step": 7100
	},
	{
	"epoch": 2.53,
	"learning_rate": 5.3220035778175306e-05,
	"loss": 0.3719,
	"step": 7200
	},
	{
	"epoch": 2.57,
	"learning_rate": 5.296958855098389e-05,
	"loss": 0.3786,
	"step": 7300
	},
	{
	"epoch": 2.6,
	"learning_rate": 5.2719141323792486e-05,
	"loss": 0.3752,
	"step": 7400
	},
	{
	"epoch": 2.64,
	"learning_rate": 5.246869409660107e-05,
	"loss": 0.3669,
	"step": 7500
	},
	{
	"epoch": 2.64,
	"eval_bleu": 52.7255,
	"eval_chrf++": 67.8883,
	"eval_gen_len": 14.9541,
	"eval_loss": 0.5295674204826355,
	"eval_runtime": 1595.3953,
	"eval_samples_per_second": 4.589,
	"eval_steps_per_second": 2.295,
	"step": 7500
	},
	{
	"epoch": 2.67,
	"learning_rate": 5.2218246869409654e-05,
	"loss": 0.3714,
	"step": 7600
	},
	{
	"epoch": 2.71,
	"learning_rate": 5.1967799642218244e-05,
	"loss": 0.3757,
	"step": 7700
	},
	{
	"epoch": 2.74,
	"learning_rate": 5.171735241502683e-05,
	"loss": 0.3723,
	"step": 7800
	},
	{
	"epoch": 2.78,
	"learning_rate": 5.146690518783542e-05,
	"loss": 0.3697,
	"step": 7900
	},
	{
	"epoch": 2.81,
	"learning_rate": 5.1216457960644e-05,
	"loss": 0.377,
	"step": 8000
	},
	{
	"epoch": 2.81,
	"eval_bleu": 52.8794,
	"eval_chrf++": 67.9457,
	"eval_gen_len": 15.0385,
	"eval_loss": 0.5260419845581055,
	"eval_runtime": 1587.5224,
	"eval_samples_per_second": 4.612,
	"eval_steps_per_second": 2.306,
	"step": 8000
	}
	],
	"logging_steps": 100,
	"max_steps": 28450,
	"num_train_epochs": 10,
	"save_steps": 2000,
	"total_flos": 1.1095532220721398e+18,
	"trial_name": null,
	"trial_params": null
	}