Training in progress, step 150, checkpoint

009ed55 verified 6 days ago

28.4 kB

	{
	"best_metric": 0.29094862937927246,
	"best_model_checkpoint": "miner_id_24/checkpoint-150",
	"epoch": 0.7761966364812419,
	"eval_steps": 25,
	"global_step": 150,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00517464424320828,
	"grad_norm": 137.61221313476562,
	"learning_rate": 5.555555555555556e-06,
	"loss": 45.3923,
	"step": 1
	},
	{
	"epoch": 0.00517464424320828,
	"eval_loss": 0.879862904548645,
	"eval_runtime": 2.4641,
	"eval_samples_per_second": 20.291,
	"eval_steps_per_second": 5.276,
	"step": 1
	},
	{
	"epoch": 0.01034928848641656,
	"grad_norm": 145.64358520507812,
	"learning_rate": 1.1111111111111112e-05,
	"loss": 47.4644,
	"step": 2
	},
	{
	"epoch": 0.015523932729624839,
	"grad_norm": 143.3395233154297,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 46.5953,
	"step": 3
	},
	{
	"epoch": 0.02069857697283312,
	"grad_norm": 131.87200927734375,
	"learning_rate": 2.2222222222222223e-05,
	"loss": 46.5328,
	"step": 4
	},
	{
	"epoch": 0.0258732212160414,
	"grad_norm": 114.46612548828125,
	"learning_rate": 2.777777777777778e-05,
	"loss": 44.6468,
	"step": 5
	},
	{
	"epoch": 0.031047865459249677,
	"grad_norm": 86.16083526611328,
	"learning_rate": 3.3333333333333335e-05,
	"loss": 40.958,
	"step": 6
	},
	{
	"epoch": 0.03622250970245795,
	"grad_norm": 135.6624755859375,
	"learning_rate": 3.888888888888889e-05,
	"loss": 39.1718,
	"step": 7
	},
	{
	"epoch": 0.04139715394566624,
	"grad_norm": 88.87834167480469,
	"learning_rate": 4.4444444444444447e-05,
	"loss": 35.5996,
	"step": 8
	},
	{
	"epoch": 0.04657179818887452,
	"grad_norm": 134.31365966796875,
	"learning_rate": 5e-05,
	"loss": 44.2182,
	"step": 9
	},
	{
	"epoch": 0.0517464424320828,
	"grad_norm": 112.15583038330078,
	"learning_rate": 5.555555555555556e-05,
	"loss": 40.9168,
	"step": 10
	},
	{
	"epoch": 0.056921086675291076,
	"grad_norm": 116.23684692382812,
	"learning_rate": 6.111111111111112e-05,
	"loss": 40.278,
	"step": 11
	},
	{
	"epoch": 0.062095730918499355,
	"grad_norm": 91.58599853515625,
	"learning_rate": 6.666666666666667e-05,
	"loss": 39.5289,
	"step": 12
	},
	{
	"epoch": 0.06727037516170763,
	"grad_norm": 84.65013122558594,
	"learning_rate": 7.222222222222222e-05,
	"loss": 34.301,
	"step": 13
	},
	{
	"epoch": 0.0724450194049159,
	"grad_norm": 63.37664031982422,
	"learning_rate": 7.777777777777778e-05,
	"loss": 30.2999,
	"step": 14
	},
	{
	"epoch": 0.07761966364812418,
	"grad_norm": 39.683807373046875,
	"learning_rate": 8.333333333333334e-05,
	"loss": 29.2968,
	"step": 15
	},
	{
	"epoch": 0.08279430789133248,
	"grad_norm": 31.897132873535156,
	"learning_rate": 8.888888888888889e-05,
	"loss": 28.7925,
	"step": 16
	},
	{
	"epoch": 0.08796895213454076,
	"grad_norm": 34.73341751098633,
	"learning_rate": 9.444444444444444e-05,
	"loss": 28.2201,
	"step": 17
	},
	{
	"epoch": 0.09314359637774904,
	"grad_norm": 33.116825103759766,
	"learning_rate": 0.0001,
	"loss": 27.4134,
	"step": 18
	},
	{
	"epoch": 0.09831824062095731,
	"grad_norm": 29.32647132873535,
	"learning_rate": 9.999884773765534e-05,
	"loss": 27.2748,
	"step": 19
	},
	{
	"epoch": 0.1034928848641656,
	"grad_norm": 34.262603759765625,
	"learning_rate": 9.999539100963065e-05,
	"loss": 26.7995,
	"step": 20
	},
	{
	"epoch": 0.10866752910737387,
	"grad_norm": 34.93130111694336,
	"learning_rate": 9.998962999295068e-05,
	"loss": 30.0288,
	"step": 21
	},
	{
	"epoch": 0.11384217335058215,
	"grad_norm": 45.51692581176758,
	"learning_rate": 9.998156498264669e-05,
	"loss": 32.0179,
	"step": 22
	},
	{
	"epoch": 0.11901681759379043,
	"grad_norm": 53.52436828613281,
	"learning_rate": 9.997119639174122e-05,
	"loss": 31.3302,
	"step": 23
	},
	{
	"epoch": 0.12419146183699871,
	"grad_norm": 53.14868927001953,
	"learning_rate": 9.995852475122702e-05,
	"loss": 31.3536,
	"step": 24
	},
	{
	"epoch": 0.129366106080207,
	"grad_norm": 55.426658630371094,
	"learning_rate": 9.994355071003984e-05,
	"loss": 30.1863,
	"step": 25
	},
	{
	"epoch": 0.129366106080207,
	"eval_loss": 0.4283739924430847,
	"eval_runtime": 2.4658,
	"eval_samples_per_second": 20.277,
	"eval_steps_per_second": 5.272,
	"step": 25
	},
	{
	"epoch": 0.13454075032341525,
	"grad_norm": 59.29961395263672,
	"learning_rate": 9.992627503502517e-05,
	"loss": 25.8217,
	"step": 26
	},
	{
	"epoch": 0.13971539456662355,
	"grad_norm": 32.18626403808594,
	"learning_rate": 9.990669861089904e-05,
	"loss": 24.9423,
	"step": 27
	},
	{
	"epoch": 0.1448900388098318,
	"grad_norm": 42.07598876953125,
	"learning_rate": 9.988482244020256e-05,
	"loss": 24.4099,
	"step": 28
	},
	{
	"epoch": 0.1500646830530401,
	"grad_norm": 32.522953033447266,
	"learning_rate": 9.986064764325079e-05,
	"loss": 23.9485,
	"step": 29
	},
	{
	"epoch": 0.15523932729624837,
	"grad_norm": 32.758941650390625,
	"learning_rate": 9.983417545807521e-05,
	"loss": 23.9998,
	"step": 30
	},
	{
	"epoch": 0.16041397153945666,
	"grad_norm": 30.58071517944336,
	"learning_rate": 9.980540724036031e-05,
	"loss": 23.4842,
	"step": 31
	},
	{
	"epoch": 0.16558861578266496,
	"grad_norm": 29.740413665771484,
	"learning_rate": 9.977434446337431e-05,
	"loss": 23.3358,
	"step": 32
	},
	{
	"epoch": 0.17076326002587322,
	"grad_norm": 31.934289932250977,
	"learning_rate": 9.974098871789359e-05,
	"loss": 24.1982,
	"step": 33
	},
	{
	"epoch": 0.1759379042690815,
	"grad_norm": 52.297630310058594,
	"learning_rate": 9.970534171212117e-05,
	"loss": 29.5956,
	"step": 34
	},
	{
	"epoch": 0.18111254851228978,
	"grad_norm": 44.05955123901367,
	"learning_rate": 9.966740527159945e-05,
	"loss": 28.9523,
	"step": 35
	},
	{
	"epoch": 0.18628719275549807,
	"grad_norm": 48.28145217895508,
	"learning_rate": 9.962718133911648e-05,
	"loss": 27.3425,
	"step": 36
	},
	{
	"epoch": 0.19146183699870634,
	"grad_norm": 50.967891693115234,
	"learning_rate": 9.958467197460662e-05,
	"loss": 28.0913,
	"step": 37
	},
	{
	"epoch": 0.19663648124191463,
	"grad_norm": 48.36716842651367,
	"learning_rate": 9.953987935504497e-05,
	"loss": 24.9412,
	"step": 38
	},
	{
	"epoch": 0.2018111254851229,
	"grad_norm": 34.47467803955078,
	"learning_rate": 9.949280577433593e-05,
	"loss": 22.663,
	"step": 39
	},
	{
	"epoch": 0.2069857697283312,
	"grad_norm": 24.475858688354492,
	"learning_rate": 9.944345364319571e-05,
	"loss": 22.2558,
	"step": 40
	},
	{
	"epoch": 0.21216041397153945,
	"grad_norm": 24.5921630859375,
	"learning_rate": 9.939182548902883e-05,
	"loss": 23.2109,
	"step": 41
	},
	{
	"epoch": 0.21733505821474774,
	"grad_norm": 22.380992889404297,
	"learning_rate": 9.933792395579877e-05,
	"loss": 22.2931,
	"step": 42
	},
	{
	"epoch": 0.222509702457956,
	"grad_norm": 27.86241340637207,
	"learning_rate": 9.928175180389254e-05,
	"loss": 21.9427,
	"step": 43
	},
	{
	"epoch": 0.2276843467011643,
	"grad_norm": 25.076570510864258,
	"learning_rate": 9.922331190997922e-05,
	"loss": 21.5344,
	"step": 44
	},
	{
	"epoch": 0.23285899094437257,
	"grad_norm": 26.751014709472656,
	"learning_rate": 9.916260726686278e-05,
	"loss": 21.4259,
	"step": 45
	},
	{
	"epoch": 0.23803363518758086,
	"grad_norm": 34.77674865722656,
	"learning_rate": 9.909964098332879e-05,
	"loss": 24.7821,
	"step": 46
	},
	{
	"epoch": 0.24320827943078913,
	"grad_norm": 45.179378509521484,
	"learning_rate": 9.903441628398511e-05,
	"loss": 25.4269,
	"step": 47
	},
	{
	"epoch": 0.24838292367399742,
	"grad_norm": 49.48162078857422,
	"learning_rate": 9.896693650909686e-05,
	"loss": 26.9395,
	"step": 48
	},
	{
	"epoch": 0.2535575679172057,
	"grad_norm": 51.22860336303711,
	"learning_rate": 9.889720511441532e-05,
	"loss": 24.3481,
	"step": 49
	},
	{
	"epoch": 0.258732212160414,
	"grad_norm": 45.01136779785156,
	"learning_rate": 9.882522567100093e-05,
	"loss": 25.6337,
	"step": 50
	},
	{
	"epoch": 0.258732212160414,
	"eval_loss": 0.3623690903186798,
	"eval_runtime": 2.4658,
	"eval_samples_per_second": 20.278,
	"eval_steps_per_second": 5.272,
	"step": 50
	},
	{
	"epoch": 0.26390685640362227,
	"grad_norm": 34.13395690917969,
	"learning_rate": 9.875100186504046e-05,
	"loss": 22.0404,
	"step": 51
	},
	{
	"epoch": 0.2690815006468305,
	"grad_norm": 25.99323272705078,
	"learning_rate": 9.867453749765821e-05,
	"loss": 21.5824,
	"step": 52
	},
	{
	"epoch": 0.2742561448900388,
	"grad_norm": 25.306379318237305,
	"learning_rate": 9.859583648472133e-05,
	"loss": 21.0068,
	"step": 53
	},
	{
	"epoch": 0.2794307891332471,
	"grad_norm": 24.23813247680664,
	"learning_rate": 9.851490285663937e-05,
	"loss": 20.8086,
	"step": 54
	},
	{
	"epoch": 0.2846054333764554,
	"grad_norm": 26.623321533203125,
	"learning_rate": 9.84317407581577e-05,
	"loss": 20.7912,
	"step": 55
	},
	{
	"epoch": 0.2897800776196636,
	"grad_norm": 24.135229110717773,
	"learning_rate": 9.834635444814545e-05,
	"loss": 21.1925,
	"step": 56
	},
	{
	"epoch": 0.2949547218628719,
	"grad_norm": 23.138614654541016,
	"learning_rate": 9.825874829937722e-05,
	"loss": 20.337,
	"step": 57
	},
	{
	"epoch": 0.3001293661060802,
	"grad_norm": 25.857755661010742,
	"learning_rate": 9.816892679830937e-05,
	"loss": 20.4409,
	"step": 58
	},
	{
	"epoch": 0.3053040103492885,
	"grad_norm": 51.40500259399414,
	"learning_rate": 9.807689454485e-05,
	"loss": 27.1275,
	"step": 59
	},
	{
	"epoch": 0.31047865459249674,
	"grad_norm": 46.01802444458008,
	"learning_rate": 9.798265625212358e-05,
	"loss": 24.8525,
	"step": 60
	},
	{
	"epoch": 0.31565329883570503,
	"grad_norm": 44.5273323059082,
	"learning_rate": 9.788621674622949e-05,
	"loss": 25.6639,
	"step": 61
	},
	{
	"epoch": 0.3208279430789133,
	"grad_norm": 55.26118469238281,
	"learning_rate": 9.778758096599488e-05,
	"loss": 24.8307,
	"step": 62
	},
	{
	"epoch": 0.3260025873221216,
	"grad_norm": 39.436317443847656,
	"learning_rate": 9.76867539627218e-05,
	"loss": 23.664,
	"step": 63
	},
	{
	"epoch": 0.3311772315653299,
	"grad_norm": 27.185758590698242,
	"learning_rate": 9.758374089992841e-05,
	"loss": 20.8368,
	"step": 64
	},
	{
	"epoch": 0.33635187580853815,
	"grad_norm": 24.435218811035156,
	"learning_rate": 9.747854705308464e-05,
	"loss": 20.0758,
	"step": 65
	},
	{
	"epoch": 0.34152652005174644,
	"grad_norm": 24.6842041015625,
	"learning_rate": 9.737117780934197e-05,
	"loss": 20.2967,
	"step": 66
	},
	{
	"epoch": 0.34670116429495473,
	"grad_norm": 24.836183547973633,
	"learning_rate": 9.726163866725763e-05,
	"loss": 19.7435,
	"step": 67
	},
	{
	"epoch": 0.351875808538163,
	"grad_norm": 23.984460830688477,
	"learning_rate": 9.714993523651283e-05,
	"loss": 19.9251,
	"step": 68
	},
	{
	"epoch": 0.35705045278137126,
	"grad_norm": 24.694488525390625,
	"learning_rate": 9.703607323762569e-05,
	"loss": 19.8217,
	"step": 69
	},
	{
	"epoch": 0.36222509702457956,
	"grad_norm": 24.874622344970703,
	"learning_rate": 9.692005850165816e-05,
	"loss": 20.1879,
	"step": 70
	},
	{
	"epoch": 0.36739974126778785,
	"grad_norm": 27.704814910888672,
	"learning_rate": 9.680189696991742e-05,
	"loss": 21.443,
	"step": 71
	},
	{
	"epoch": 0.37257438551099614,
	"grad_norm": 47.33317565917969,
	"learning_rate": 9.668159469365163e-05,
	"loss": 24.7285,
	"step": 72
	},
	{
	"epoch": 0.3777490297542044,
	"grad_norm": 39.55653762817383,
	"learning_rate": 9.655915783374005e-05,
	"loss": 23.3597,
	"step": 73
	},
	{
	"epoch": 0.3829236739974127,
	"grad_norm": 41.66143798828125,
	"learning_rate": 9.643459266037744e-05,
	"loss": 22.6492,
	"step": 74
	},
	{
	"epoch": 0.38809831824062097,
	"grad_norm": 61.841583251953125,
	"learning_rate": 9.630790555275313e-05,
	"loss": 23.7358,
	"step": 75
	},
	{
	"epoch": 0.38809831824062097,
	"eval_loss": 0.3401211202144623,
	"eval_runtime": 2.4648,
	"eval_samples_per_second": 20.286,
	"eval_steps_per_second": 5.274,
	"step": 75
	},
	{
	"epoch": 0.39327296248382926,
	"grad_norm": 47.54359817504883,
	"learning_rate": 9.617910299872416e-05,
	"loss": 20.79,
	"step": 76
	},
	{
	"epoch": 0.3984476067270375,
	"grad_norm": 28.126712799072266,
	"learning_rate": 9.604819159448309e-05,
	"loss": 20.1379,
	"step": 77
	},
	{
	"epoch": 0.4036222509702458,
	"grad_norm": 29.2869930267334,
	"learning_rate": 9.591517804422023e-05,
	"loss": 19.5183,
	"step": 78
	},
	{
	"epoch": 0.4087968952134541,
	"grad_norm": 30.21017074584961,
	"learning_rate": 9.578006915978022e-05,
	"loss": 19.2306,
	"step": 79
	},
	{
	"epoch": 0.4139715394566624,
	"grad_norm": 23.017995834350586,
	"learning_rate": 9.564287186031333e-05,
	"loss": 19.4107,
	"step": 80
	},
	{
	"epoch": 0.4191461836998706,
	"grad_norm": 24.11803436279297,
	"learning_rate": 9.550359317192096e-05,
	"loss": 19.2999,
	"step": 81
	},
	{
	"epoch": 0.4243208279430789,
	"grad_norm": 25.78137969970703,
	"learning_rate": 9.536224022729591e-05,
	"loss": 19.0366,
	"step": 82
	},
	{
	"epoch": 0.4294954721862872,
	"grad_norm": 23.27781867980957,
	"learning_rate": 9.521882026535708e-05,
	"loss": 18.6447,
	"step": 83
	},
	{
	"epoch": 0.4346701164294955,
	"grad_norm": 43.739017486572266,
	"learning_rate": 9.50733406308788e-05,
	"loss": 23.4598,
	"step": 84
	},
	{
	"epoch": 0.4398447606727037,
	"grad_norm": 39.98222351074219,
	"learning_rate": 9.492580877411456e-05,
	"loss": 22.9503,
	"step": 85
	},
	{
	"epoch": 0.445019404915912,
	"grad_norm": 39.081974029541016,
	"learning_rate": 9.477623225041565e-05,
	"loss": 23.2451,
	"step": 86
	},
	{
	"epoch": 0.4501940491591203,
	"grad_norm": 45.064517974853516,
	"learning_rate": 9.462461871984411e-05,
	"loss": 22.8303,
	"step": 87
	},
	{
	"epoch": 0.4553686934023286,
	"grad_norm": 35.90961456298828,
	"learning_rate": 9.447097594678046e-05,
	"loss": 20.3165,
	"step": 88
	},
	{
	"epoch": 0.46054333764553684,
	"grad_norm": 29.820219039916992,
	"learning_rate": 9.431531179952613e-05,
	"loss": 19.7648,
	"step": 89
	},
	{
	"epoch": 0.46571798188874514,
	"grad_norm": 24.659387588500977,
	"learning_rate": 9.415763424990047e-05,
	"loss": 19.644,
	"step": 90
	},
	{
	"epoch": 0.47089262613195343,
	"grad_norm": 23.654937744140625,
	"learning_rate": 9.39979513728325e-05,
	"loss": 18.7199,
	"step": 91
	},
	{
	"epoch": 0.4760672703751617,
	"grad_norm": 25.759111404418945,
	"learning_rate": 9.383627134594741e-05,
	"loss": 19.023,
	"step": 92
	},
	{
	"epoch": 0.48124191461837,
	"grad_norm": 26.290327072143555,
	"learning_rate": 9.367260244914768e-05,
	"loss": 19.474,
	"step": 93
	},
	{
	"epoch": 0.48641655886157825,
	"grad_norm": 22.56080436706543,
	"learning_rate": 9.350695306418922e-05,
	"loss": 18.6015,
	"step": 94
	},
	{
	"epoch": 0.49159120310478654,
	"grad_norm": 24.438447952270508,
	"learning_rate": 9.333933167425194e-05,
	"loss": 18.6668,
	"step": 95
	},
	{
	"epoch": 0.49676584734799484,
	"grad_norm": 26.50576400756836,
	"learning_rate": 9.316974686350542e-05,
	"loss": 20.2677,
	"step": 96
	},
	{
	"epoch": 0.5019404915912031,
	"grad_norm": 34.5866584777832,
	"learning_rate": 9.299820731666933e-05,
	"loss": 22.8894,
	"step": 97
	},
	{
	"epoch": 0.5071151358344114,
	"grad_norm": 37.455406188964844,
	"learning_rate": 9.282472181856854e-05,
	"loss": 22.4006,
	"step": 98
	},
	{
	"epoch": 0.5122897800776197,
	"grad_norm": 42.7640380859375,
	"learning_rate": 9.264929925368338e-05,
	"loss": 22.2345,
	"step": 99
	},
	{
	"epoch": 0.517464424320828,
	"grad_norm": 38.7821044921875,
	"learning_rate": 9.247194860569454e-05,
	"loss": 20.2589,
	"step": 100
	},
	{
	"epoch": 0.517464424320828,
	"eval_loss": 0.30999085307121277,
	"eval_runtime": 2.4658,
	"eval_samples_per_second": 20.278,
	"eval_steps_per_second": 5.272,
	"step": 100
	},
	{
	"epoch": 0.5226390685640362,
	"grad_norm": 36.86570739746094,
	"learning_rate": 9.229267895702307e-05,
	"loss": 19.0464,
	"step": 101
	},
	{
	"epoch": 0.5278137128072445,
	"grad_norm": 25.674314498901367,
	"learning_rate": 9.211149948836523e-05,
	"loss": 18.7845,
	"step": 102
	},
	{
	"epoch": 0.5329883570504528,
	"grad_norm": 26.45655632019043,
	"learning_rate": 9.192841947822232e-05,
	"loss": 18.6392,
	"step": 103
	},
	{
	"epoch": 0.538163001293661,
	"grad_norm": 21.524782180786133,
	"learning_rate": 9.17434483024255e-05,
	"loss": 17.6237,
	"step": 104
	},
	{
	"epoch": 0.5433376455368694,
	"grad_norm": 22.33011817932129,
	"learning_rate": 9.155659543365574e-05,
	"loss": 18.1102,
	"step": 105
	},
	{
	"epoch": 0.5485122897800776,
	"grad_norm": 25.29583168029785,
	"learning_rate": 9.136787044095856e-05,
	"loss": 17.8555,
	"step": 106
	},
	{
	"epoch": 0.553686934023286,
	"grad_norm": 23.13666343688965,
	"learning_rate": 9.117728298925407e-05,
	"loss": 17.7725,
	"step": 107
	},
	{
	"epoch": 0.5588615782664942,
	"grad_norm": 29.024078369140625,
	"learning_rate": 9.0984842838842e-05,
	"loss": 19.2546,
	"step": 108
	},
	{
	"epoch": 0.5640362225097024,
	"grad_norm": 50.17615509033203,
	"learning_rate": 9.079055984490186e-05,
	"loss": 23.3918,
	"step": 109
	},
	{
	"epoch": 0.5692108667529108,
	"grad_norm": 35.480079650878906,
	"learning_rate": 9.059444395698823e-05,
	"loss": 22.019,
	"step": 110
	},
	{
	"epoch": 0.574385510996119,
	"grad_norm": 38.16156005859375,
	"learning_rate": 9.039650521852124e-05,
	"loss": 20.7054,
	"step": 111
	},
	{
	"epoch": 0.5795601552393272,
	"grad_norm": 46.26918411254883,
	"learning_rate": 9.019675376627223e-05,
	"loss": 22.4658,
	"step": 112
	},
	{
	"epoch": 0.5847347994825356,
	"grad_norm": 39.86201095581055,
	"learning_rate": 8.99951998298446e-05,
	"loss": 19.7684,
	"step": 113
	},
	{
	"epoch": 0.5899094437257438,
	"grad_norm": 31.37214469909668,
	"learning_rate": 8.979185373114996e-05,
	"loss": 18.5229,
	"step": 114
	},
	{
	"epoch": 0.5950840879689522,
	"grad_norm": 23.724746704101562,
	"learning_rate": 8.958672588387953e-05,
	"loss": 18.7853,
	"step": 115
	},
	{
	"epoch": 0.6002587322121604,
	"grad_norm": 20.492137908935547,
	"learning_rate": 8.937982679297084e-05,
	"loss": 17.696,
	"step": 116
	},
	{
	"epoch": 0.6054333764553687,
	"grad_norm": 21.25743293762207,
	"learning_rate": 8.917116705406973e-05,
	"loss": 18.5685,
	"step": 117
	},
	{
	"epoch": 0.610608020698577,
	"grad_norm": 20.935260772705078,
	"learning_rate": 8.89607573529878e-05,
	"loss": 17.7144,
	"step": 118
	},
	{
	"epoch": 0.6157826649417852,
	"grad_norm": 22.177967071533203,
	"learning_rate": 8.8748608465155e-05,
	"loss": 17.7657,
	"step": 119
	},
	{
	"epoch": 0.6209573091849935,
	"grad_norm": 23.44055938720703,
	"learning_rate": 8.853473125506803e-05,
	"loss": 17.5972,
	"step": 120
	},
	{
	"epoch": 0.6261319534282018,
	"grad_norm": 28.071083068847656,
	"learning_rate": 8.831913667573379e-05,
	"loss": 20.4785,
	"step": 121
	},
	{
	"epoch": 0.6313065976714101,
	"grad_norm": 41.40524673461914,
	"learning_rate": 8.810183576810856e-05,
	"loss": 22.6656,
	"step": 122
	},
	{
	"epoch": 0.6364812419146184,
	"grad_norm": 35.51282501220703,
	"learning_rate": 8.788283966053244e-05,
	"loss": 20.7936,
	"step": 123
	},
	{
	"epoch": 0.6416558861578266,
	"grad_norm": 36.20588302612305,
	"learning_rate": 8.766215956815959e-05,
	"loss": 20.6696,
	"step": 124
	},
	{
	"epoch": 0.6468305304010349,
	"grad_norm": 45.860923767089844,
	"learning_rate": 8.743980679238385e-05,
	"loss": 20.0276,
	"step": 125
	},
	{
	"epoch": 0.6468305304010349,
	"eval_loss": 0.3056069612503052,
	"eval_runtime": 2.4651,
	"eval_samples_per_second": 20.283,
	"eval_steps_per_second": 5.274,
	"step": 125
	},
	{
	"epoch": 0.6520051746442432,
	"grad_norm": 29.0579891204834,
	"learning_rate": 8.721579272025989e-05,
	"loss": 18.0009,
	"step": 126
	},
	{
	"epoch": 0.6571798188874515,
	"grad_norm": 24.840801239013672,
	"learning_rate": 8.699012882392018e-05,
	"loss": 18.2828,
	"step": 127
	},
	{
	"epoch": 0.6623544631306598,
	"grad_norm": 21.309526443481445,
	"learning_rate": 8.676282665998736e-05,
	"loss": 17.479,
	"step": 128
	},
	{
	"epoch": 0.6675291073738681,
	"grad_norm": 19.316205978393555,
	"learning_rate": 8.653389786898255e-05,
	"loss": 17.4983,
	"step": 129
	},
	{
	"epoch": 0.6727037516170763,
	"grad_norm": 19.56000328063965,
	"learning_rate": 8.630335417472909e-05,
	"loss": 17.2595,
	"step": 130
	},
	{
	"epoch": 0.6778783958602846,
	"grad_norm": 21.257116317749023,
	"learning_rate": 8.607120738375219e-05,
	"loss": 17.2479,
	"step": 131
	},
	{
	"epoch": 0.6830530401034929,
	"grad_norm": 22.04469108581543,
	"learning_rate": 8.583746938467436e-05,
	"loss": 17.3352,
	"step": 132
	},
	{
	"epoch": 0.6882276843467011,
	"grad_norm": 22.032026290893555,
	"learning_rate": 8.560215214760647e-05,
	"loss": 17.1702,
	"step": 133
	},
	{
	"epoch": 0.6934023285899095,
	"grad_norm": 35.43321228027344,
	"learning_rate": 8.53652677235348e-05,
	"loss": 21.7454,
	"step": 134
	},
	{
	"epoch": 0.6985769728331177,
	"grad_norm": 35.82448196411133,
	"learning_rate": 8.512682824370386e-05,
	"loss": 21.3486,
	"step": 135
	},
	{
	"epoch": 0.703751617076326,
	"grad_norm": 33.74680709838867,
	"learning_rate": 8.48868459189952e-05,
	"loss": 19.9599,
	"step": 136
	},
	{
	"epoch": 0.7089262613195343,
	"grad_norm": 34.64817428588867,
	"learning_rate": 8.464533303930195e-05,
	"loss": 20.4086,
	"step": 137
	},
	{
	"epoch": 0.7141009055627425,
	"grad_norm": 30.78453826904297,
	"learning_rate": 8.440230197289955e-05,
	"loss": 19.2218,
	"step": 138
	},
	{
	"epoch": 0.7192755498059509,
	"grad_norm": 21.971385955810547,
	"learning_rate": 8.415776516581229e-05,
	"loss": 17.5228,
	"step": 139
	},
	{
	"epoch": 0.7244501940491591,
	"grad_norm": 25.183547973632812,
	"learning_rate": 8.391173514117591e-05,
	"loss": 17.9851,
	"step": 140
	},
	{
	"epoch": 0.7296248382923674,
	"grad_norm": 21.053089141845703,
	"learning_rate": 8.366422449859635e-05,
	"loss": 17.2393,
	"step": 141
	},
	{
	"epoch": 0.7347994825355757,
	"grad_norm": 20.95396614074707,
	"learning_rate": 8.34152459135044e-05,
	"loss": 16.9388,
	"step": 142
	},
	{
	"epoch": 0.7399741267787839,
	"grad_norm": 20.432722091674805,
	"learning_rate": 8.316481213650668e-05,
	"loss": 16.9324,
	"step": 143
	},
	{
	"epoch": 0.7451487710219923,
	"grad_norm": 21.420108795166016,
	"learning_rate": 8.291293599273253e-05,
	"loss": 17.3103,
	"step": 144
	},
	{
	"epoch": 0.7503234152652005,
	"grad_norm": 22.44611167907715,
	"learning_rate": 8.265963038117736e-05,
	"loss": 16.4267,
	"step": 145
	},
	{
	"epoch": 0.7554980595084088,
	"grad_norm": 29.85533905029297,
	"learning_rate": 8.240490827404196e-05,
	"loss": 19.9061,
	"step": 146
	},
	{
	"epoch": 0.7606727037516171,
	"grad_norm": 36.1021614074707,
	"learning_rate": 8.21487827160682e-05,
	"loss": 21.6027,
	"step": 147
	},
	{
	"epoch": 0.7658473479948253,
	"grad_norm": 35.79337692260742,
	"learning_rate": 8.189126682387103e-05,
	"loss": 21.6038,
	"step": 148
	},
	{
	"epoch": 0.7710219922380336,
	"grad_norm": 39.69446563720703,
	"learning_rate": 8.163237378526669e-05,
	"loss": 21.0512,
	"step": 149
	},
	{
	"epoch": 0.7761966364812419,
	"grad_norm": 37.87336730957031,
	"learning_rate": 8.137211685859739e-05,
	"loss": 20.3793,
	"step": 150
	},
	{
	"epoch": 0.7761966364812419,
	"eval_loss": 0.29094862937927246,
	"eval_runtime": 2.466,
	"eval_samples_per_second": 20.276,
	"eval_steps_per_second": 5.272,
	"step": 150
	}
	],
	"logging_steps": 1,
	"max_steps": 457,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 50,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 1,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.500900642665267e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}