falcon-7b-ft-alpaca-cleaned-dutch / trainer_state.json

init model

227a3af over 1 year ago

161 kB

	{
	"best_metric": 1.5448263883590698,
	"best_model_checkpoint": "/home/ampere/vanroy/llm-finetuning/instruct-tuning/results/falcon-7b-ft-alpaca-cleaned-dutch/checkpoint-1140",
	"epoch": 2.9931618365353305,
	"global_step": 1149,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 2.8571428571428575e-07,
	"loss": 2.0637,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 5.714285714285715e-07,
	"loss": 2.0295,
	"step": 2
	},
	{
	"epoch": 0.01,
	"learning_rate": 8.571428571428572e-07,
	"loss": 1.9624,
	"step": 3
	},
	{
	"epoch": 0.01,
	"learning_rate": 1.142857142857143e-06,
	"loss": 1.9473,
	"step": 4
	},
	{
	"epoch": 0.01,
	"learning_rate": 1.4285714285714286e-06,
	"loss": 1.9286,
	"step": 5
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.7142857142857145e-06,
	"loss": 1.9895,
	"step": 6
	},
	{
	"epoch": 0.02,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.9534,
	"step": 7
	},
	{
	"epoch": 0.02,
	"learning_rate": 2.285714285714286e-06,
	"loss": 1.9382,
	"step": 8
	},
	{
	"epoch": 0.02,
	"learning_rate": 2.571428571428571e-06,
	"loss": 1.9521,
	"step": 9
	},
	{
	"epoch": 0.03,
	"learning_rate": 2.8571428571428573e-06,
	"loss": 1.9832,
	"step": 10
	},
	{
	"epoch": 0.03,
	"eval_loss": 1.8889312744140625,
	"eval_runtime": 221.7455,
	"eval_samples_per_second": 11.662,
	"eval_steps_per_second": 0.731,
	"step": 10
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.142857142857143e-06,
	"loss": 1.9819,
	"step": 11
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.428571428571429e-06,
	"loss": 1.9702,
	"step": 12
	},
	{
	"epoch": 0.03,
	"learning_rate": 3.7142857142857146e-06,
	"loss": 1.9717,
	"step": 13
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.000000000000001e-06,
	"loss": 2.0242,
	"step": 14
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.2857142857142855e-06,
	"loss": 2.0544,
	"step": 15
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.571428571428572e-06,
	"loss": 1.8782,
	"step": 16
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.857142857142858e-06,
	"loss": 2.0745,
	"step": 17
	},
	{
	"epoch": 0.05,
	"learning_rate": 5.142857142857142e-06,
	"loss": 1.9383,
	"step": 18
	},
	{
	"epoch": 0.05,
	"learning_rate": 5.428571428571429e-06,
	"loss": 1.9806,
	"step": 19
	},
	{
	"epoch": 0.05,
	"learning_rate": 5.7142857142857145e-06,
	"loss": 1.9355,
	"step": 20
	},
	{
	"epoch": 0.05,
	"eval_loss": 1.8833638429641724,
	"eval_runtime": 221.7609,
	"eval_samples_per_second": 11.661,
	"eval_steps_per_second": 0.731,
	"step": 20
	},
	{
	"epoch": 0.05,
	"learning_rate": 6e-06,
	"loss": 1.9604,
	"step": 21
	},
	{
	"epoch": 0.06,
	"learning_rate": 6.285714285714286e-06,
	"loss": 1.8709,
	"step": 22
	},
	{
	"epoch": 0.06,
	"learning_rate": 6.571428571428572e-06,
	"loss": 1.9495,
	"step": 23
	},
	{
	"epoch": 0.06,
	"learning_rate": 6.857142857142858e-06,
	"loss": 1.9632,
	"step": 24
	},
	{
	"epoch": 0.07,
	"learning_rate": 7.1428571428571436e-06,
	"loss": 1.9315,
	"step": 25
	},
	{
	"epoch": 0.07,
	"learning_rate": 7.428571428571429e-06,
	"loss": 1.9402,
	"step": 26
	},
	{
	"epoch": 0.07,
	"learning_rate": 7.714285714285716e-06,
	"loss": 1.9944,
	"step": 27
	},
	{
	"epoch": 0.07,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.9004,
	"step": 28
	},
	{
	"epoch": 0.08,
	"learning_rate": 8.285714285714287e-06,
	"loss": 2.0983,
	"step": 29
	},
	{
	"epoch": 0.08,
	"learning_rate": 8.571428571428571e-06,
	"loss": 1.9694,
	"step": 30
	},
	{
	"epoch": 0.08,
	"eval_loss": 1.8670501708984375,
	"eval_runtime": 221.6801,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 8.857142857142858e-06,
	"loss": 1.9217,
	"step": 31
	},
	{
	"epoch": 0.08,
	"learning_rate": 9.142857142857144e-06,
	"loss": 1.878,
	"step": 32
	},
	{
	"epoch": 0.09,
	"learning_rate": 9.42857142857143e-06,
	"loss": 1.9016,
	"step": 33
	},
	{
	"epoch": 0.09,
	"learning_rate": 9.714285714285715e-06,
	"loss": 1.9793,
	"step": 34
	},
	{
	"epoch": 0.09,
	"learning_rate": 1e-05,
	"loss": 1.961,
	"step": 35
	},
	{
	"epoch": 0.09,
	"learning_rate": 9.999980117587285e-06,
	"loss": 1.9236,
	"step": 36
	},
	{
	"epoch": 0.1,
	"learning_rate": 9.999920470507263e-06,
	"loss": 1.9858,
	"step": 37
	},
	{
	"epoch": 0.1,
	"learning_rate": 9.999821059234308e-06,
	"loss": 1.9147,
	"step": 38
	},
	{
	"epoch": 0.1,
	"learning_rate": 9.999681884559027e-06,
	"loss": 1.8903,
	"step": 39
	},
	{
	"epoch": 0.1,
	"learning_rate": 9.999502947588279e-06,
	"loss": 1.9048,
	"step": 40
	},
	{
	"epoch": 0.1,
	"eval_loss": 1.8328224420547485,
	"eval_runtime": 221.7913,
	"eval_samples_per_second": 11.66,
	"eval_steps_per_second": 0.73,
	"step": 40
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.999284249745143e-06,
	"loss": 1.8736,
	"step": 41
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.99902579276891e-06,
	"loss": 1.9191,
	"step": 42
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.998727578715083e-06,
	"loss": 1.903,
	"step": 43
	},
	{
	"epoch": 0.11,
	"learning_rate": 9.998389609955348e-06,
	"loss": 1.8531,
	"step": 44
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.998011889177558e-06,
	"loss": 2.0097,
	"step": 45
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.997594419385712e-06,
	"loss": 1.7101,
	"step": 46
	},
	{
	"epoch": 0.12,
	"learning_rate": 9.997137203899935e-06,
	"loss": 1.9653,
	"step": 47
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.996640246356446e-06,
	"loss": 1.9002,
	"step": 48
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.996103550707528e-06,
	"loss": 1.9036,
	"step": 49
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.995527121221504e-06,
	"loss": 1.8443,
	"step": 50
	},
	{
	"epoch": 0.13,
	"eval_loss": 1.7970249652862549,
	"eval_runtime": 221.713,
	"eval_samples_per_second": 11.664,
	"eval_steps_per_second": 0.731,
	"step": 50
	},
	{
	"epoch": 0.13,
	"learning_rate": 9.9949109624827e-06,
	"loss": 1.9025,
	"step": 51
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.994255079391402e-06,
	"loss": 1.7249,
	"step": 52
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.993559477163827e-06,
	"loss": 1.8214,
	"step": 53
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.992824161332073e-06,
	"loss": 1.785,
	"step": 54
	},
	{
	"epoch": 0.14,
	"learning_rate": 9.992049137744084e-06,
	"loss": 1.8474,
	"step": 55
	},
	{
	"epoch": 0.15,
	"learning_rate": 9.991234412563594e-06,
	"loss": 1.8446,
	"step": 56
	},
	{
	"epoch": 0.15,
	"learning_rate": 9.990379992270084e-06,
	"loss": 1.9928,
	"step": 57
	},
	{
	"epoch": 0.15,
	"learning_rate": 9.989485883658729e-06,
	"loss": 1.7823,
	"step": 58
	},
	{
	"epoch": 0.15,
	"learning_rate": 9.988552093840344e-06,
	"loss": 1.8821,
	"step": 59
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.987578630241326e-06,
	"loss": 1.7448,
	"step": 60
	},
	{
	"epoch": 0.16,
	"eval_loss": 1.7710908651351929,
	"eval_runtime": 221.7207,
	"eval_samples_per_second": 11.663,
	"eval_steps_per_second": 0.731,
	"step": 60
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.986565500603598e-06,
	"loss": 1.8721,
	"step": 61
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.985512712984543e-06,
	"loss": 1.8571,
	"step": 62
	},
	{
	"epoch": 0.16,
	"learning_rate": 9.984420275756945e-06,
	"loss": 1.9442,
	"step": 63
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.98328819760892e-06,
	"loss": 1.8412,
	"step": 64
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.982116487543844e-06,
	"loss": 1.9281,
	"step": 65
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.980905154880288e-06,
	"loss": 1.8329,
	"step": 66
	},
	{
	"epoch": 0.17,
	"learning_rate": 9.979654209251939e-06,
	"loss": 1.8401,
	"step": 67
	},
	{
	"epoch": 0.18,
	"learning_rate": 9.978363660607522e-06,
	"loss": 1.8755,
	"step": 68
	},
	{
	"epoch": 0.18,
	"learning_rate": 9.977033519210725e-06,
	"loss": 1.8779,
	"step": 69
	},
	{
	"epoch": 0.18,
	"learning_rate": 9.975663795640118e-06,
	"loss": 1.8004,
	"step": 70
	},
	{
	"epoch": 0.18,
	"eval_loss": 1.7521506547927856,
	"eval_runtime": 221.7459,
	"eval_samples_per_second": 11.662,
	"eval_steps_per_second": 0.731,
	"step": 70
	},
	{
	"epoch": 0.18,
	"learning_rate": 9.974254500789065e-06,
	"loss": 1.8134,
	"step": 71
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.972805645865637e-06,
	"loss": 1.7562,
	"step": 72
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.971317242392527e-06,
	"loss": 1.9037,
	"step": 73
	},
	{
	"epoch": 0.19,
	"learning_rate": 9.969789302206957e-06,
	"loss": 1.7513,
	"step": 74
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.968221837460578e-06,
	"loss": 1.8005,
	"step": 75
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.96661486061939e-06,
	"loss": 1.7634,
	"step": 76
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.964968384463616e-06,
	"loss": 1.7449,
	"step": 77
	},
	{
	"epoch": 0.2,
	"learning_rate": 9.963282422087628e-06,
	"loss": 1.8057,
	"step": 78
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.961556986899824e-06,
	"loss": 1.7487,
	"step": 79
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.959792092622532e-06,
	"loss": 1.7767,
	"step": 80
	},
	{
	"epoch": 0.21,
	"eval_loss": 1.7370113134384155,
	"eval_runtime": 221.8285,
	"eval_samples_per_second": 11.658,
	"eval_steps_per_second": 0.73,
	"step": 80
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.95798775329189e-06,
	"loss": 1.8068,
	"step": 81
	},
	{
	"epoch": 0.21,
	"learning_rate": 9.95614398325775e-06,
	"loss": 1.7506,
	"step": 82
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.95426079718355e-06,
	"loss": 1.814,
	"step": 83
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.952338210046202e-06,
	"loss": 1.7255,
	"step": 84
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.950376237135974e-06,
	"loss": 1.7329,
	"step": 85
	},
	{
	"epoch": 0.22,
	"learning_rate": 9.94837489405637e-06,
	"loss": 1.7829,
	"step": 86
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.946334196724e-06,
	"loss": 1.8209,
	"step": 87
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.944254161368457e-06,
	"loss": 1.9201,
	"step": 88
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.942134804532194e-06,
	"loss": 1.7912,
	"step": 89
	},
	{
	"epoch": 0.23,
	"learning_rate": 9.939976143070378e-06,
	"loss": 1.7733,
	"step": 90
	},
	{
	"epoch": 0.23,
	"eval_loss": 1.7247874736785889,
	"eval_runtime": 221.7361,
	"eval_samples_per_second": 11.663,
	"eval_steps_per_second": 0.731,
	"step": 90
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.937778194150771e-06,
	"loss": 1.7701,
	"step": 91
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.935540975253582e-06,
	"loss": 1.8053,
	"step": 92
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.933264504171337e-06,
	"loss": 1.8445,
	"step": 93
	},
	{
	"epoch": 0.24,
	"learning_rate": 9.930948799008728e-06,
	"loss": 1.7114,
	"step": 94
	},
	{
	"epoch": 0.25,
	"learning_rate": 9.92859387818248e-06,
	"loss": 1.8548,
	"step": 95
	},
	{
	"epoch": 0.25,
	"learning_rate": 9.926199760421196e-06,
	"loss": 1.8339,
	"step": 96
	},
	{
	"epoch": 0.25,
	"learning_rate": 9.923766464765208e-06,
	"loss": 1.7359,
	"step": 97
	},
	{
	"epoch": 0.26,
	"learning_rate": 9.921294010566434e-06,
	"loss": 1.8538,
	"step": 98
	},
	{
	"epoch": 0.26,
	"learning_rate": 9.918782417488216e-06,
	"loss": 1.7922,
	"step": 99
	},
	{
	"epoch": 0.26,
	"learning_rate": 9.916231705505166e-06,
	"loss": 1.7926,
	"step": 100
	},
	{
	"epoch": 0.26,
	"eval_loss": 1.7149242162704468,
	"eval_runtime": 221.7644,
	"eval_samples_per_second": 11.661,
	"eval_steps_per_second": 0.731,
	"step": 100
	},
	{
	"epoch": 0.26,
	"learning_rate": 9.913641894903006e-06,
	"loss": 1.7366,
	"step": 101
	},
	{
	"epoch": 0.27,
	"learning_rate": 9.91101300627841e-06,
	"loss": 1.7165,
	"step": 102
	},
	{
	"epoch": 0.27,
	"learning_rate": 9.908345060538838e-06,
	"loss": 1.7273,
	"step": 103
	},
	{
	"epoch": 0.27,
	"learning_rate": 9.905638078902367e-06,
	"loss": 1.7634,
	"step": 104
	},
	{
	"epoch": 0.27,
	"learning_rate": 9.90289208289753e-06,
	"loss": 1.7922,
	"step": 105
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.900107094363139e-06,
	"loss": 1.6726,
	"step": 106
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.897283135448106e-06,
	"loss": 1.9,
	"step": 107
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.89442022861128e-06,
	"loss": 1.8644,
	"step": 108
	},
	{
	"epoch": 0.28,
	"learning_rate": 9.891518396621257e-06,
	"loss": 1.7699,
	"step": 109
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.888577662556211e-06,
	"loss": 1.8258,
	"step": 110
	},
	{
	"epoch": 0.29,
	"eval_loss": 1.7066211700439453,
	"eval_runtime": 221.7672,
	"eval_samples_per_second": 11.661,
	"eval_steps_per_second": 0.73,
	"step": 110
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.885598049803693e-06,
	"loss": 1.7653,
	"step": 111
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.882579582060459e-06,
	"loss": 1.716,
	"step": 112
	},
	{
	"epoch": 0.29,
	"learning_rate": 9.87952228333228e-06,
	"loss": 1.8161,
	"step": 113
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.876426177933743e-06,
	"loss": 1.6403,
	"step": 114
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.873291290488068e-06,
	"loss": 1.8212,
	"step": 115
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.870117645926907e-06,
	"loss": 1.7464,
	"step": 116
	},
	{
	"epoch": 0.3,
	"learning_rate": 9.866905269490141e-06,
	"loss": 1.812,
	"step": 117
	},
	{
	"epoch": 0.31,
	"learning_rate": 9.863654186725688e-06,
	"loss": 1.7119,
	"step": 118
	},
	{
	"epoch": 0.31,
	"learning_rate": 9.860364423489299e-06,
	"loss": 1.7449,
	"step": 119
	},
	{
	"epoch": 0.31,
	"learning_rate": 9.857036005944344e-06,
	"loss": 1.6709,
	"step": 120
	},
	{
	"epoch": 0.31,
	"eval_loss": 1.699345588684082,
	"eval_runtime": 221.7101,
	"eval_samples_per_second": 11.664,
	"eval_steps_per_second": 0.731,
	"step": 120
	},
	{
	"epoch": 0.32,
	"learning_rate": 9.853668960561611e-06,
	"loss": 1.8353,
	"step": 121
	},
	{
	"epoch": 0.32,
	"learning_rate": 9.850263314119095e-06,
	"loss": 1.8131,
	"step": 122
	},
	{
	"epoch": 0.32,
	"learning_rate": 9.846819093701782e-06,
	"loss": 1.8758,
	"step": 123
	},
	{
	"epoch": 0.32,
	"learning_rate": 9.84333632670144e-06,
	"loss": 1.7605,
	"step": 124
	},
	{
	"epoch": 0.33,
	"learning_rate": 9.839815040816391e-06,
	"loss": 1.8341,
	"step": 125
	},
	{
	"epoch": 0.33,
	"learning_rate": 9.8362552640513e-06,
	"loss": 1.7422,
	"step": 126
	},
	{
	"epoch": 0.33,
	"learning_rate": 9.832657024716944e-06,
	"loss": 1.7603,
	"step": 127
	},
	{
	"epoch": 0.33,
	"learning_rate": 9.829020351429999e-06,
	"loss": 1.6797,
	"step": 128
	},
	{
	"epoch": 0.34,
	"learning_rate": 9.825345273112796e-06,
	"loss": 1.778,
	"step": 129
	},
	{
	"epoch": 0.34,
	"learning_rate": 9.82163181899311e-06,
	"loss": 1.6612,
	"step": 130
	},
	{
	"epoch": 0.34,
	"eval_loss": 1.692633032798767,
	"eval_runtime": 221.7638,
	"eval_samples_per_second": 11.661,
	"eval_steps_per_second": 0.731,
	"step": 130
	},
	{
	"epoch": 0.34,
	"learning_rate": 9.81788001860391e-06,
	"loss": 1.799,
	"step": 131
	},
	{
	"epoch": 0.34,
	"learning_rate": 9.81408990178313e-06,
	"loss": 1.6594,
	"step": 132
	},
	{
	"epoch": 0.35,
	"learning_rate": 9.810261498673441e-06,
	"loss": 1.8236,
	"step": 133
	},
	{
	"epoch": 0.35,
	"learning_rate": 9.806394839722e-06,
	"loss": 1.8106,
	"step": 134
	},
	{
	"epoch": 0.35,
	"learning_rate": 9.802489955680206e-06,
	"loss": 1.6582,
	"step": 135
	},
	{
	"epoch": 0.35,
	"learning_rate": 9.798546877603468e-06,
	"loss": 1.8047,
	"step": 136
	},
	{
	"epoch": 0.36,
	"learning_rate": 9.794565636850948e-06,
	"loss": 1.7607,
	"step": 137
	},
	{
	"epoch": 0.36,
	"learning_rate": 9.790546265085317e-06,
	"loss": 1.7379,
	"step": 138
	},
	{
	"epoch": 0.36,
	"learning_rate": 9.786488794272494e-06,
	"loss": 1.7817,
	"step": 139
	},
	{
	"epoch": 0.36,
	"learning_rate": 9.782393256681406e-06,
	"loss": 1.8463,
	"step": 140
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.686733365058899,
	"eval_runtime": 221.7968,
	"eval_samples_per_second": 11.659,
	"eval_steps_per_second": 0.73,
	"step": 140
	},
	{
	"epoch": 0.37,
	"learning_rate": 9.77825968488372e-06,
	"loss": 1.6746,
	"step": 141
	},
	{
	"epoch": 0.37,
	"learning_rate": 9.774088111753586e-06,
	"loss": 1.81,
	"step": 142
	},
	{
	"epoch": 0.37,
	"learning_rate": 9.769878570467382e-06,
	"loss": 1.7666,
	"step": 143
	},
	{
	"epoch": 0.38,
	"learning_rate": 9.765631094503442e-06,
	"loss": 1.7299,
	"step": 144
	},
	{
	"epoch": 0.38,
	"learning_rate": 9.761345717641794e-06,
	"loss": 1.6813,
	"step": 145
	},
	{
	"epoch": 0.38,
	"learning_rate": 9.757022473963891e-06,
	"loss": 1.8533,
	"step": 146
	},
	{
	"epoch": 0.38,
	"learning_rate": 9.752661397852338e-06,
	"loss": 1.7705,
	"step": 147
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.748262523990621e-06,
	"loss": 1.7602,
	"step": 148
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.743825887362832e-06,
	"loss": 1.8127,
	"step": 149
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.739351523253386e-06,
	"loss": 1.8413,
	"step": 150
	},
	{
	"epoch": 0.39,
	"eval_loss": 1.6814411878585815,
	"eval_runtime": 222.7399,
	"eval_samples_per_second": 11.61,
	"eval_steps_per_second": 0.727,
	"step": 150
	},
	{
	"epoch": 0.39,
	"learning_rate": 9.734839467246744e-06,
	"loss": 1.7403,
	"step": 151
	},
	{
	"epoch": 0.4,
	"learning_rate": 9.730289755227131e-06,
	"loss": 1.7251,
	"step": 152
	},
	{
	"epoch": 0.4,
	"learning_rate": 9.725702423378248e-06,
	"loss": 1.793,
	"step": 153
	},
	{
	"epoch": 0.4,
	"learning_rate": 9.721077508182983e-06,
	"loss": 1.8803,
	"step": 154
	},
	{
	"epoch": 0.4,
	"learning_rate": 9.716415046423126e-06,
	"loss": 1.877,
	"step": 155
	},
	{
	"epoch": 0.41,
	"learning_rate": 9.711715075179075e-06,
	"loss": 1.7526,
	"step": 156
	},
	{
	"epoch": 0.41,
	"learning_rate": 9.706977631829535e-06,
	"loss": 1.6221,
	"step": 157
	},
	{
	"epoch": 0.41,
	"learning_rate": 9.702202754051227e-06,
	"loss": 1.7265,
	"step": 158
	},
	{
	"epoch": 0.41,
	"learning_rate": 9.69739047981859e-06,
	"loss": 1.7845,
	"step": 159
	},
	{
	"epoch": 0.42,
	"learning_rate": 9.692540847403468e-06,
	"loss": 1.7659,
	"step": 160
	},
	{
	"epoch": 0.42,
	"eval_loss": 1.6765244007110596,
	"eval_runtime": 223.2206,
	"eval_samples_per_second": 11.585,
	"eval_steps_per_second": 0.726,
	"step": 160
	},
	{
	"epoch": 0.42,
	"learning_rate": 9.687653895374824e-06,
	"loss": 1.7978,
	"step": 161
	},
	{
	"epoch": 0.42,
	"learning_rate": 9.682729662598412e-06,
	"loss": 1.7052,
	"step": 162
	},
	{
	"epoch": 0.42,
	"learning_rate": 9.677768188236487e-06,
	"loss": 1.8091,
	"step": 163
	},
	{
	"epoch": 0.43,
	"learning_rate": 9.67276951174748e-06,
	"loss": 1.7734,
	"step": 164
	},
	{
	"epoch": 0.43,
	"learning_rate": 9.667733672885688e-06,
	"loss": 1.7277,
	"step": 165
	},
	{
	"epoch": 0.43,
	"learning_rate": 9.662660711700967e-06,
	"loss": 1.8164,
	"step": 166
	},
	{
	"epoch": 0.44,
	"learning_rate": 9.657550668538396e-06,
	"loss": 1.7124,
	"step": 167
	},
	{
	"epoch": 0.44,
	"learning_rate": 9.652403584037973e-06,
	"loss": 1.7963,
	"step": 168
	},
	{
	"epoch": 0.44,
	"learning_rate": 9.647219499134278e-06,
	"loss": 1.6524,
	"step": 169
	},
	{
	"epoch": 0.44,
	"learning_rate": 9.641998455056158e-06,
	"loss": 1.69,
	"step": 170
	},
	{
	"epoch": 0.44,
	"eval_loss": 1.6714941263198853,
	"eval_runtime": 221.7019,
	"eval_samples_per_second": 11.664,
	"eval_steps_per_second": 0.731,
	"step": 170
	},
	{
	"epoch": 0.45,
	"learning_rate": 9.636740493326398e-06,
	"loss": 1.7079,
	"step": 171
	},
	{
	"epoch": 0.45,
	"learning_rate": 9.631445655761378e-06,
	"loss": 1.6603,
	"step": 172
	},
	{
	"epoch": 0.45,
	"learning_rate": 9.626113984470761e-06,
	"loss": 1.6752,
	"step": 173
	},
	{
	"epoch": 0.45,
	"learning_rate": 9.62074552185714e-06,
	"loss": 1.7644,
	"step": 174
	},
	{
	"epoch": 0.46,
	"learning_rate": 9.615340310615713e-06,
	"loss": 1.6803,
	"step": 175
	},
	{
	"epoch": 0.46,
	"learning_rate": 9.609898393733933e-06,
	"loss": 1.6749,
	"step": 176
	},
	{
	"epoch": 0.46,
	"learning_rate": 9.604419814491179e-06,
	"loss": 1.6519,
	"step": 177
	},
	{
	"epoch": 0.46,
	"learning_rate": 9.598904616458398e-06,
	"loss": 1.7138,
	"step": 178
	},
	{
	"epoch": 0.47,
	"learning_rate": 9.593352843497768e-06,
	"loss": 1.6877,
	"step": 179
	},
	{
	"epoch": 0.47,
	"learning_rate": 9.587764539762345e-06,
	"loss": 1.7219,
	"step": 180
	},
	{
	"epoch": 0.47,
	"eval_loss": 1.667332410812378,
	"eval_runtime": 221.7085,
	"eval_samples_per_second": 11.664,
	"eval_steps_per_second": 0.731,
	"step": 180
	},
	{
	"epoch": 0.47,
	"learning_rate": 9.582139749695713e-06,
	"loss": 1.7226,
	"step": 181
	},
	{
	"epoch": 0.47,
	"learning_rate": 9.576478518031634e-06,
	"loss": 1.7295,
	"step": 182
	},
	{
	"epoch": 0.48,
	"learning_rate": 9.570780889793681e-06,
	"loss": 1.721,
	"step": 183
	},
	{
	"epoch": 0.48,
	"learning_rate": 9.565046910294895e-06,
	"loss": 1.6858,
	"step": 184
	},
	{
	"epoch": 0.48,
	"learning_rate": 9.559276625137416e-06,
	"loss": 1.7445,
	"step": 185
	},
	{
	"epoch": 0.48,
	"learning_rate": 9.553470080212122e-06,
	"loss": 1.6903,
	"step": 186
	},
	{
	"epoch": 0.49,
	"learning_rate": 9.547627321698257e-06,
	"loss": 1.7992,
	"step": 187
	},
	{
	"epoch": 0.49,
	"learning_rate": 9.541748396063077e-06,
	"loss": 1.7254,
	"step": 188
	},
	{
	"epoch": 0.49,
	"learning_rate": 9.535833350061473e-06,
	"loss": 1.6893,
	"step": 189
	},
	{
	"epoch": 0.49,
	"learning_rate": 9.5298822307356e-06,
	"loss": 1.6755,
	"step": 190
	},
	{
	"epoch": 0.49,
	"eval_loss": 1.662742257118225,
	"eval_runtime": 221.8841,
	"eval_samples_per_second": 11.655,
	"eval_steps_per_second": 0.73,
	"step": 190
	},
	{
	"epoch": 0.5,
	"learning_rate": 9.523895085414503e-06,
	"loss": 1.6372,
	"step": 191
	},
	{
	"epoch": 0.5,
	"learning_rate": 9.517871961713736e-06,
	"loss": 1.8021,
	"step": 192
	},
	{
	"epoch": 0.5,
	"learning_rate": 9.511812907534995e-06,
	"loss": 1.6815,
	"step": 193
	},
	{
	"epoch": 0.51,
	"learning_rate": 9.505717971065724e-06,
	"loss": 1.7048,
	"step": 194
	},
	{
	"epoch": 0.51,
	"learning_rate": 9.499587200778744e-06,
	"loss": 1.6524,
	"step": 195
	},
	{
	"epoch": 0.51,
	"learning_rate": 9.493420645431853e-06,
	"loss": 1.6642,
	"step": 196
	},
	{
	"epoch": 0.51,
	"learning_rate": 9.48721835406745e-06,
	"loss": 1.7152,
	"step": 197
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.480980376012145e-06,
	"loss": 1.6411,
	"step": 198
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.474706760876356e-06,
	"loss": 1.7822,
	"step": 199
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.468397558553928e-06,
	"loss": 1.7823,
	"step": 200
	},
	{
	"epoch": 0.52,
	"eval_loss": 1.6584206819534302,
	"eval_runtime": 221.589,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 200
	},
	{
	"epoch": 0.52,
	"learning_rate": 9.462052819221726e-06,
	"loss": 1.6793,
	"step": 201
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.455672593339241e-06,
	"loss": 1.7228,
	"step": 202
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.449256931648185e-06,
	"loss": 1.6657,
	"step": 203
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.442805885172092e-06,
	"loss": 1.7024,
	"step": 204
	},
	{
	"epoch": 0.53,
	"learning_rate": 9.43631950521591e-06,
	"loss": 1.6369,
	"step": 205
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.429797843365594e-06,
	"loss": 1.7064,
	"step": 206
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.42324095148769e-06,
	"loss": 1.6594,
	"step": 207
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.41664888172893e-06,
	"loss": 1.6718,
	"step": 208
	},
	{
	"epoch": 0.54,
	"learning_rate": 9.410021686515815e-06,
	"loss": 1.7348,
	"step": 209
	},
	{
	"epoch": 0.55,
	"learning_rate": 9.4033594185542e-06,
	"loss": 1.7635,
	"step": 210
	},
	{
	"epoch": 0.55,
	"eval_loss": 1.6544885635375977,
	"eval_runtime": 221.753,
	"eval_samples_per_second": 11.662,
	"eval_steps_per_second": 0.731,
	"step": 210
	},
	{
	"epoch": 0.55,
	"learning_rate": 9.396662130828869e-06,
	"loss": 1.7155,
	"step": 211
	},
	{
	"epoch": 0.55,
	"learning_rate": 9.389929876603112e-06,
	"loss": 1.6977,
	"step": 212
	},
	{
	"epoch": 0.55,
	"learning_rate": 9.38316270941832e-06,
	"loss": 1.8122,
	"step": 213
	},
	{
	"epoch": 0.56,
	"learning_rate": 9.37636068309353e-06,
	"loss": 1.7403,
	"step": 214
	},
	{
	"epoch": 0.56,
	"learning_rate": 9.369523851725024e-06,
	"loss": 1.7272,
	"step": 215
	},
	{
	"epoch": 0.56,
	"learning_rate": 9.362652269685881e-06,
	"loss": 1.6559,
	"step": 216
	},
	{
	"epoch": 0.57,
	"learning_rate": 9.355745991625556e-06,
	"loss": 1.6567,
	"step": 217
	},
	{
	"epoch": 0.57,
	"learning_rate": 9.348805072469435e-06,
	"loss": 1.6923,
	"step": 218
	},
	{
	"epoch": 0.57,
	"learning_rate": 9.341829567418407e-06,
	"loss": 1.7745,
	"step": 219
	},
	{
	"epoch": 0.57,
	"learning_rate": 9.334819531948418e-06,
	"loss": 1.7335,
	"step": 220
	},
	{
	"epoch": 0.57,
	"eval_loss": 1.6505930423736572,
	"eval_runtime": 221.6702,
	"eval_samples_per_second": 11.666,
	"eval_steps_per_second": 0.731,
	"step": 220
	},
	{
	"epoch": 0.58,
	"learning_rate": 9.327775021810037e-06,
	"loss": 1.6126,
	"step": 221
	},
	{
	"epoch": 0.58,
	"learning_rate": 9.320696093028009e-06,
	"loss": 1.7739,
	"step": 222
	},
	{
	"epoch": 0.58,
	"learning_rate": 9.313582801900802e-06,
	"loss": 1.7429,
	"step": 223
	},
	{
	"epoch": 0.58,
	"learning_rate": 9.306435205000178e-06,
	"loss": 1.6804,
	"step": 224
	},
	{
	"epoch": 0.59,
	"learning_rate": 9.299253359170722e-06,
	"loss": 1.731,
	"step": 225
	},
	{
	"epoch": 0.59,
	"learning_rate": 9.292037321529404e-06,
	"loss": 1.6897,
	"step": 226
	},
	{
	"epoch": 0.59,
	"learning_rate": 9.284787149465119e-06,
	"loss": 1.6957,
	"step": 227
	},
	{
	"epoch": 0.59,
	"learning_rate": 9.277502900638233e-06,
	"loss": 1.7935,
	"step": 228
	},
	{
	"epoch": 0.6,
	"learning_rate": 9.270184632980121e-06,
	"loss": 1.7074,
	"step": 229
	},
	{
	"epoch": 0.6,
	"learning_rate": 9.262832404692714e-06,
	"loss": 1.7272,
	"step": 230
	},
	{
	"epoch": 0.6,
	"eval_loss": 1.647078037261963,
	"eval_runtime": 221.5996,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 230
	},
	{
	"epoch": 0.6,
	"learning_rate": 9.255446274248023e-06,
	"loss": 1.644,
	"step": 231
	},
	{
	"epoch": 0.6,
	"learning_rate": 9.248026300387688e-06,
	"loss": 1.7362,
	"step": 232
	},
	{
	"epoch": 0.61,
	"learning_rate": 9.240572542122502e-06,
	"loss": 1.6591,
	"step": 233
	},
	{
	"epoch": 0.61,
	"learning_rate": 9.23308505873194e-06,
	"loss": 1.7088,
	"step": 234
	},
	{
	"epoch": 0.61,
	"learning_rate": 9.225563909763701e-06,
	"loss": 1.6153,
	"step": 235
	},
	{
	"epoch": 0.61,
	"learning_rate": 9.218009155033218e-06,
	"loss": 1.7105,
	"step": 236
	},
	{
	"epoch": 0.62,
	"learning_rate": 9.210420854623191e-06,
	"loss": 1.7702,
	"step": 237
	},
	{
	"epoch": 0.62,
	"learning_rate": 9.202799068883113e-06,
	"loss": 1.6542,
	"step": 238
	},
	{
	"epoch": 0.62,
	"learning_rate": 9.195143858428773e-06,
	"loss": 1.6457,
	"step": 239
	},
	{
	"epoch": 0.63,
	"learning_rate": 9.187455284141798e-06,
	"loss": 1.718,
	"step": 240
	},
	{
	"epoch": 0.63,
	"eval_loss": 1.6436262130737305,
	"eval_runtime": 221.6177,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 240
	},
	{
	"epoch": 0.63,
	"learning_rate": 9.179733407169146e-06,
	"loss": 1.7206,
	"step": 241
	},
	{
	"epoch": 0.63,
	"learning_rate": 9.171978288922638e-06,
	"loss": 1.7417,
	"step": 242
	},
	{
	"epoch": 0.63,
	"learning_rate": 9.164189991078458e-06,
	"loss": 1.6934,
	"step": 243
	},
	{
	"epoch": 0.64,
	"learning_rate": 9.156368575576667e-06,
	"loss": 1.6417,
	"step": 244
	},
	{
	"epoch": 0.64,
	"learning_rate": 9.148514104620711e-06,
	"loss": 1.6462,
	"step": 245
	},
	{
	"epoch": 0.64,
	"learning_rate": 9.14062664067692e-06,
	"loss": 1.5682,
	"step": 246
	},
	{
	"epoch": 0.64,
	"learning_rate": 9.13270624647402e-06,
	"loss": 1.7027,
	"step": 247
	},
	{
	"epoch": 0.65,
	"learning_rate": 9.124752985002632e-06,
	"loss": 1.7179,
	"step": 248
	},
	{
	"epoch": 0.65,
	"learning_rate": 9.116766919514765e-06,
	"loss": 1.7081,
	"step": 249
	},
	{
	"epoch": 0.65,
	"learning_rate": 9.10874811352332e-06,
	"loss": 1.6899,
	"step": 250
	},
	{
	"epoch": 0.65,
	"eval_loss": 1.6402881145477295,
	"eval_runtime": 221.6301,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 250
	},
	{
	"epoch": 0.65,
	"learning_rate": 9.10069663080158e-06,
	"loss": 1.7782,
	"step": 251
	},
	{
	"epoch": 0.66,
	"learning_rate": 9.092612535382705e-06,
	"loss": 1.5032,
	"step": 252
	},
	{
	"epoch": 0.66,
	"learning_rate": 9.084495891559227e-06,
	"loss": 1.6477,
	"step": 253
	},
	{
	"epoch": 0.66,
	"learning_rate": 9.076346763882529e-06,
	"loss": 1.6938,
	"step": 254
	},
	{
	"epoch": 0.66,
	"learning_rate": 9.068165217162337e-06,
	"loss": 1.7275,
	"step": 255
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.059951316466209e-06,
	"loss": 1.6538,
	"step": 256
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.05170512711901e-06,
	"loss": 1.7431,
	"step": 257
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.043426714702398e-06,
	"loss": 1.7214,
	"step": 258
	},
	{
	"epoch": 0.67,
	"learning_rate": 9.035116145054292e-06,
	"loss": 1.6552,
	"step": 259
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.026773484268368e-06,
	"loss": 1.622,
	"step": 260
	},
	{
	"epoch": 0.68,
	"eval_loss": 1.6370071172714233,
	"eval_runtime": 221.6656,
	"eval_samples_per_second": 11.666,
	"eval_steps_per_second": 0.731,
	"step": 260
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.018398798693512e-06,
	"loss": 1.7426,
	"step": 261
	},
	{
	"epoch": 0.68,
	"learning_rate": 9.009992154933309e-06,
	"loss": 1.6963,
	"step": 262
	},
	{
	"epoch": 0.69,
	"learning_rate": 9.001553619845502e-06,
	"loss": 1.6488,
	"step": 263
	},
	{
	"epoch": 0.69,
	"learning_rate": 8.993083260541467e-06,
	"loss": 1.6403,
	"step": 264
	},
	{
	"epoch": 0.69,
	"learning_rate": 8.984581144385673e-06,
	"loss": 1.7677,
	"step": 265
	},
	{
	"epoch": 0.69,
	"learning_rate": 8.976047338995156e-06,
	"loss": 1.7812,
	"step": 266
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.967481912238971e-06,
	"loss": 1.8025,
	"step": 267
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.958884932237658e-06,
	"loss": 1.7102,
	"step": 268
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.9502564673627e-06,
	"loss": 1.7224,
	"step": 269
	},
	{
	"epoch": 0.7,
	"learning_rate": 8.941596586235972e-06,
	"loss": 1.6556,
	"step": 270
	},
	{
	"epoch": 0.7,
	"eval_loss": 1.6336780786514282,
	"eval_runtime": 221.5029,
	"eval_samples_per_second": 11.675,
	"eval_steps_per_second": 0.731,
	"step": 270
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.932905357729213e-06,
	"loss": 1.6515,
	"step": 271
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.924182850963457e-06,
	"loss": 1.6204,
	"step": 272
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.915429135308496e-06,
	"loss": 1.7968,
	"step": 273
	},
	{
	"epoch": 0.71,
	"learning_rate": 8.906644280382325e-06,
	"loss": 1.706,
	"step": 274
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.897828356050587e-06,
	"loss": 1.7528,
	"step": 275
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.88898143242602e-06,
	"loss": 1.6825,
	"step": 276
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.880103579867903e-06,
	"loss": 1.663,
	"step": 277
	},
	{
	"epoch": 0.72,
	"learning_rate": 8.871194868981483e-06,
	"loss": 1.7998,
	"step": 278
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.86225537061743e-06,
	"loss": 1.6817,
	"step": 279
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.853285155871258e-06,
	"loss": 1.7912,
	"step": 280
	},
	{
	"epoch": 0.73,
	"eval_loss": 1.6304128170013428,
	"eval_runtime": 221.5812,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 280
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.844284296082776e-06,
	"loss": 1.5936,
	"step": 281
	},
	{
	"epoch": 0.73,
	"learning_rate": 8.835252862835508e-06,
	"loss": 1.7402,
	"step": 282
	},
	{
	"epoch": 0.74,
	"learning_rate": 8.826190927956123e-06,
	"loss": 1.6576,
	"step": 283
	},
	{
	"epoch": 0.74,
	"learning_rate": 8.817098563513874e-06,
	"loss": 1.658,
	"step": 284
	},
	{
	"epoch": 0.74,
	"learning_rate": 8.807975841820023e-06,
	"loss": 1.6579,
	"step": 285
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.79882283542725e-06,
	"loss": 1.6569,
	"step": 286
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.7896396171291e-06,
	"loss": 1.7584,
	"step": 287
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.780426259959385e-06,
	"loss": 1.7632,
	"step": 288
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.771182837191614e-06,
	"loss": 1.778,
	"step": 289
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.761909422338404e-06,
	"loss": 1.6025,
	"step": 290
	},
	{
	"epoch": 0.76,
	"eval_loss": 1.6273553371429443,
	"eval_runtime": 221.6644,
	"eval_samples_per_second": 11.666,
	"eval_steps_per_second": 0.731,
	"step": 290
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.752606089150903e-06,
	"loss": 1.7473,
	"step": 291
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.743272911618193e-06,
	"loss": 1.7449,
	"step": 292
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.733909963966709e-06,
	"loss": 1.6992,
	"step": 293
	},
	{
	"epoch": 0.77,
	"learning_rate": 8.724517320659644e-06,
	"loss": 1.7442,
	"step": 294
	},
	{
	"epoch": 0.77,
	"learning_rate": 8.715095056396369e-06,
	"loss": 1.7049,
	"step": 295
	},
	{
	"epoch": 0.77,
	"learning_rate": 8.705643246111817e-06,
	"loss": 1.6719,
	"step": 296
	},
	{
	"epoch": 0.77,
	"learning_rate": 8.696161964975907e-06,
	"loss": 1.6751,
	"step": 297
	},
	{
	"epoch": 0.78,
	"learning_rate": 8.686651288392937e-06,
	"loss": 1.7948,
	"step": 298
	},
	{
	"epoch": 0.78,
	"learning_rate": 8.677111292000985e-06,
	"loss": 1.6709,
	"step": 299
	},
	{
	"epoch": 0.78,
	"learning_rate": 8.66754205167131e-06,
	"loss": 1.7181,
	"step": 300
	},
	{
	"epoch": 0.78,
	"eval_loss": 1.6246178150177002,
	"eval_runtime": 221.5384,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 300
	},
	{
	"epoch": 0.78,
	"learning_rate": 8.657943643507747e-06,
	"loss": 1.7374,
	"step": 301
	},
	{
	"epoch": 0.79,
	"learning_rate": 8.6483161438461e-06,
	"loss": 1.6974,
	"step": 302
	},
	{
	"epoch": 0.79,
	"learning_rate": 8.638659629253536e-06,
	"loss": 1.7096,
	"step": 303
	},
	{
	"epoch": 0.79,
	"learning_rate": 8.628974176527982e-06,
	"loss": 1.7283,
	"step": 304
	},
	{
	"epoch": 0.79,
	"learning_rate": 8.619259862697504e-06,
	"loss": 1.7745,
	"step": 305
	},
	{
	"epoch": 0.8,
	"learning_rate": 8.609516765019699e-06,
	"loss": 1.6235,
	"step": 306
	},
	{
	"epoch": 0.8,
	"learning_rate": 8.599744960981085e-06,
	"loss": 1.679,
	"step": 307
	},
	{
	"epoch": 0.8,
	"learning_rate": 8.589944528296476e-06,
	"loss": 1.7144,
	"step": 308
	},
	{
	"epoch": 0.8,
	"learning_rate": 8.580115544908374e-06,
	"loss": 1.6576,
	"step": 309
	},
	{
	"epoch": 0.81,
	"learning_rate": 8.570258088986339e-06,
	"loss": 1.7452,
	"step": 310
	},
	{
	"epoch": 0.81,
	"eval_loss": 1.6217124462127686,
	"eval_runtime": 221.6724,
	"eval_samples_per_second": 11.666,
	"eval_steps_per_second": 0.731,
	"step": 310
	},
	{
	"epoch": 0.81,
	"learning_rate": 8.560372238926372e-06,
	"loss": 1.7452,
	"step": 311
	},
	{
	"epoch": 0.81,
	"learning_rate": 8.550458073350296e-06,
	"loss": 1.7251,
	"step": 312
	},
	{
	"epoch": 0.82,
	"learning_rate": 8.540515671105122e-06,
	"loss": 1.7005,
	"step": 313
	},
	{
	"epoch": 0.82,
	"learning_rate": 8.530545111262432e-06,
	"loss": 1.7335,
	"step": 314
	},
	{
	"epoch": 0.82,
	"learning_rate": 8.520546473117735e-06,
	"loss": 1.6461,
	"step": 315
	},
	{
	"epoch": 0.82,
	"learning_rate": 8.510519836189853e-06,
	"loss": 1.7743,
	"step": 316
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.500465280220278e-06,
	"loss": 1.6977,
	"step": 317
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.490382885172545e-06,
	"loss": 1.6567,
	"step": 318
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.480272731231591e-06,
	"loss": 1.7074,
	"step": 319
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.470134898803113e-06,
	"loss": 1.5975,
	"step": 320
	},
	{
	"epoch": 0.83,
	"eval_loss": 1.618903636932373,
	"eval_runtime": 221.623,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 320
	},
	{
	"epoch": 0.84,
	"learning_rate": 8.459969468512943e-06,
	"loss": 1.7499,
	"step": 321
	},
	{
	"epoch": 0.84,
	"learning_rate": 8.44977652120639e-06,
	"loss": 1.6924,
	"step": 322
	},
	{
	"epoch": 0.84,
	"learning_rate": 8.439556137947607e-06,
	"loss": 1.7727,
	"step": 323
	},
	{
	"epoch": 0.84,
	"learning_rate": 8.429308400018949e-06,
	"loss": 1.6344,
	"step": 324
	},
	{
	"epoch": 0.85,
	"learning_rate": 8.419033388920315e-06,
	"loss": 1.689,
	"step": 325
	},
	{
	"epoch": 0.85,
	"learning_rate": 8.40873118636851e-06,
	"loss": 1.6717,
	"step": 326
	},
	{
	"epoch": 0.85,
	"learning_rate": 8.398401874296595e-06,
	"loss": 1.6416,
	"step": 327
	},
	{
	"epoch": 0.85,
	"learning_rate": 8.388045534853222e-06,
	"loss": 1.7411,
	"step": 328
	},
	{
	"epoch": 0.86,
	"learning_rate": 8.377662250402001e-06,
	"loss": 1.6613,
	"step": 329
	},
	{
	"epoch": 0.86,
	"learning_rate": 8.36725210352083e-06,
	"loss": 1.5754,
	"step": 330
	},
	{
	"epoch": 0.86,
	"eval_loss": 1.6161595582962036,
	"eval_runtime": 221.5348,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 330
	},
	{
	"epoch": 0.86,
	"learning_rate": 8.356815177001243e-06,
	"loss": 1.7595,
	"step": 331
	},
	{
	"epoch": 0.86,
	"learning_rate": 8.346351553847754e-06,
	"loss": 1.6056,
	"step": 332
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.33586131727719e-06,
	"loss": 1.7163,
	"step": 333
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.325344550718037e-06,
	"loss": 1.6641,
	"step": 334
	},
	{
	"epoch": 0.87,
	"learning_rate": 8.314801337809775e-06,
	"loss": 1.5893,
	"step": 335
	},
	{
	"epoch": 0.88,
	"learning_rate": 8.304231762402203e-06,
	"loss": 1.6807,
	"step": 336
	},
	{
	"epoch": 0.88,
	"learning_rate": 8.29363590855479e-06,
	"loss": 1.6655,
	"step": 337
	},
	{
	"epoch": 0.88,
	"learning_rate": 8.28301386053599e-06,
	"loss": 1.7629,
	"step": 338
	},
	{
	"epoch": 0.88,
	"learning_rate": 8.272365702822577e-06,
	"loss": 1.667,
	"step": 339
	},
	{
	"epoch": 0.89,
	"learning_rate": 8.261691520098985e-06,
	"loss": 1.7077,
	"step": 340
	},
	{
	"epoch": 0.89,
	"eval_loss": 1.6135671138763428,
	"eval_runtime": 221.6285,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 340
	},
	{
	"epoch": 0.89,
	"learning_rate": 8.250991397256609e-06,
	"loss": 1.6214,
	"step": 341
	},
	{
	"epoch": 0.89,
	"learning_rate": 8.240265419393157e-06,
	"loss": 1.7911,
	"step": 342
	},
	{
	"epoch": 0.89,
	"learning_rate": 8.229513671811953e-06,
	"loss": 1.6051,
	"step": 343
	},
	{
	"epoch": 0.9,
	"learning_rate": 8.218736240021271e-06,
	"loss": 1.7498,
	"step": 344
	},
	{
	"epoch": 0.9,
	"learning_rate": 8.207933209733654e-06,
	"loss": 1.6407,
	"step": 345
	},
	{
	"epoch": 0.9,
	"learning_rate": 8.197104666865218e-06,
	"loss": 1.6836,
	"step": 346
	},
	{
	"epoch": 0.9,
	"learning_rate": 8.186250697534993e-06,
	"loss": 1.6793,
	"step": 347
	},
	{
	"epoch": 0.91,
	"learning_rate": 8.175371388064212e-06,
	"loss": 1.7107,
	"step": 348
	},
	{
	"epoch": 0.91,
	"learning_rate": 8.164466824975648e-06,
	"loss": 1.6544,
	"step": 349
	},
	{
	"epoch": 0.91,
	"learning_rate": 8.153537094992907e-06,
	"loss": 1.5848,
	"step": 350
	},
	{
	"epoch": 0.91,
	"eval_loss": 1.6112371683120728,
	"eval_runtime": 221.5593,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 350
	},
	{
	"epoch": 0.91,
	"learning_rate": 8.142582285039753e-06,
	"loss": 1.6878,
	"step": 351
	},
	{
	"epoch": 0.92,
	"learning_rate": 8.131602482239405e-06,
	"loss": 1.7152,
	"step": 352
	},
	{
	"epoch": 0.92,
	"learning_rate": 8.120597773913851e-06,
	"loss": 1.6608,
	"step": 353
	},
	{
	"epoch": 0.92,
	"learning_rate": 8.109568247583155e-06,
	"loss": 1.7256,
	"step": 354
	},
	{
	"epoch": 0.92,
	"learning_rate": 8.098513990964754e-06,
	"loss": 1.6854,
	"step": 355
	},
	{
	"epoch": 0.93,
	"learning_rate": 8.087435091972762e-06,
	"loss": 1.6055,
	"step": 356
	},
	{
	"epoch": 0.93,
	"learning_rate": 8.076331638717278e-06,
	"loss": 1.6369,
	"step": 357
	},
	{
	"epoch": 0.93,
	"learning_rate": 8.065203719503679e-06,
	"loss": 1.6198,
	"step": 358
	},
	{
	"epoch": 0.94,
	"learning_rate": 8.054051422831918e-06,
	"loss": 1.6972,
	"step": 359
	},
	{
	"epoch": 0.94,
	"learning_rate": 8.042874837395816e-06,
	"loss": 1.7011,
	"step": 360
	},
	{
	"epoch": 0.94,
	"eval_loss": 1.6087462902069092,
	"eval_runtime": 221.6783,
	"eval_samples_per_second": 11.666,
	"eval_steps_per_second": 0.731,
	"step": 360
	},
	{
	"epoch": 0.94,
	"learning_rate": 8.031674052082372e-06,
	"loss": 1.699,
	"step": 361
	},
	{
	"epoch": 0.94,
	"learning_rate": 8.02044915597104e-06,
	"loss": 1.6248,
	"step": 362
	},
	{
	"epoch": 0.95,
	"learning_rate": 8.009200238333028e-06,
	"loss": 1.6441,
	"step": 363
	},
	{
	"epoch": 0.95,
	"learning_rate": 7.99792738863058e-06,
	"loss": 1.6321,
	"step": 364
	},
	{
	"epoch": 0.95,
	"learning_rate": 7.986630696516281e-06,
	"loss": 1.7742,
	"step": 365
	},
	{
	"epoch": 0.95,
	"learning_rate": 7.975310251832328e-06,
	"loss": 1.5576,
	"step": 366
	},
	{
	"epoch": 0.96,
	"learning_rate": 7.963966144609821e-06,
	"loss": 1.6902,
	"step": 367
	},
	{
	"epoch": 0.96,
	"learning_rate": 7.95259846506805e-06,
	"loss": 1.5873,
	"step": 368
	},
	{
	"epoch": 0.96,
	"learning_rate": 7.941207303613773e-06,
	"loss": 1.7496,
	"step": 369
	},
	{
	"epoch": 0.96,
	"learning_rate": 7.929792750840499e-06,
	"loss": 1.6697,
	"step": 370
	},
	{
	"epoch": 0.96,
	"eval_loss": 1.6065231561660767,
	"eval_runtime": 221.5733,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 370
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.918354897527767e-06,
	"loss": 1.6903,
	"step": 371
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.906893834640428e-06,
	"loss": 1.6335,
	"step": 372
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.89540965332791e-06,
	"loss": 1.6909,
	"step": 373
	},
	{
	"epoch": 0.97,
	"learning_rate": 7.883902444923513e-06,
	"loss": 1.6651,
	"step": 374
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.872372300943657e-06,
	"loss": 1.7373,
	"step": 375
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.860819313087177e-06,
	"loss": 1.7589,
	"step": 376
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.849243573234582e-06,
	"loss": 1.5605,
	"step": 377
	},
	{
	"epoch": 0.98,
	"learning_rate": 7.837645173447329e-06,
	"loss": 1.5867,
	"step": 378
	},
	{
	"epoch": 0.99,
	"learning_rate": 7.826024205967084e-06,
	"loss": 1.6352,
	"step": 379
	},
	{
	"epoch": 0.99,
	"learning_rate": 7.814380763214996e-06,
	"loss": 1.6633,
	"step": 380
	},
	{
	"epoch": 0.99,
	"eval_loss": 1.6041749715805054,
	"eval_runtime": 221.6305,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 380
	},
	{
	"epoch": 0.99,
	"learning_rate": 7.80271493779096e-06,
	"loss": 1.6448,
	"step": 381
	},
	{
	"epoch": 1.0,
	"learning_rate": 7.791026822472876e-06,
	"loss": 1.6371,
	"step": 382
	},
	{
	"epoch": 1.0,
	"learning_rate": 7.779316510215919e-06,
	"loss": 1.6645,
	"step": 383
	},
	{
	"epoch": 1.0,
	"learning_rate": 7.767584094151793e-06,
	"loss": 1.757,
	"step": 384
	},
	{
	"epoch": 1.0,
	"learning_rate": 7.755829667587993e-06,
	"loss": 1.7246,
	"step": 385
	},
	{
	"epoch": 1.01,
	"learning_rate": 7.744053324007064e-06,
	"loss": 1.72,
	"step": 386
	},
	{
	"epoch": 1.01,
	"learning_rate": 7.732255157065854e-06,
	"loss": 1.7041,
	"step": 387
	},
	{
	"epoch": 1.01,
	"learning_rate": 7.720435260594774e-06,
	"loss": 1.7085,
	"step": 388
	},
	{
	"epoch": 1.01,
	"learning_rate": 7.708593728597047e-06,
	"loss": 1.6751,
	"step": 389
	},
	{
	"epoch": 1.02,
	"learning_rate": 7.696730655247963e-06,
	"loss": 1.6722,
	"step": 390
	},
	{
	"epoch": 1.02,
	"eval_loss": 1.601514220237732,
	"eval_runtime": 221.608,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 390
	},
	{
	"epoch": 1.02,
	"learning_rate": 7.684846134894133e-06,
	"loss": 1.6057,
	"step": 391
	},
	{
	"epoch": 1.02,
	"learning_rate": 7.67294026205273e-06,
	"loss": 1.6744,
	"step": 392
	},
	{
	"epoch": 1.02,
	"learning_rate": 7.661013131410745e-06,
	"loss": 1.6633,
	"step": 393
	},
	{
	"epoch": 1.03,
	"learning_rate": 7.649064837824231e-06,
	"loss": 1.5247,
	"step": 394
	},
	{
	"epoch": 1.03,
	"learning_rate": 7.637095476317553e-06,
	"loss": 1.7302,
	"step": 395
	},
	{
	"epoch": 1.03,
	"learning_rate": 7.6251051420826224e-06,
	"loss": 1.645,
	"step": 396
	},
	{
	"epoch": 1.03,
	"learning_rate": 7.613093930478148e-06,
	"loss": 1.5705,
	"step": 397
	},
	{
	"epoch": 1.04,
	"learning_rate": 7.601061937028881e-06,
	"loss": 1.6186,
	"step": 398
	},
	{
	"epoch": 1.04,
	"learning_rate": 7.58900925742484e-06,
	"loss": 1.6353,
	"step": 399
	},
	{
	"epoch": 1.04,
	"learning_rate": 7.576935987520566e-06,
	"loss": 1.7181,
	"step": 400
	},
	{
	"epoch": 1.04,
	"eval_loss": 1.5993202924728394,
	"eval_runtime": 221.5695,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 400
	},
	{
	"epoch": 1.04,
	"learning_rate": 7.5648422233343564e-06,
	"loss": 1.7363,
	"step": 401
	},
	{
	"epoch": 1.05,
	"learning_rate": 7.552728061047492e-06,
	"loss": 1.5845,
	"step": 402
	},
	{
	"epoch": 1.05,
	"learning_rate": 7.54059359700348e-06,
	"loss": 1.6761,
	"step": 403
	},
	{
	"epoch": 1.05,
	"learning_rate": 7.528438927707298e-06,
	"loss": 1.7179,
	"step": 404
	},
	{
	"epoch": 1.06,
	"learning_rate": 7.5162641498246e-06,
	"loss": 1.66,
	"step": 405
	},
	{
	"epoch": 1.06,
	"learning_rate": 7.504069360180971e-06,
	"loss": 1.5965,
	"step": 406
	},
	{
	"epoch": 1.06,
	"learning_rate": 7.491854655761149e-06,
	"loss": 1.6249,
	"step": 407
	},
	{
	"epoch": 1.06,
	"learning_rate": 7.479620133708246e-06,
	"loss": 1.7097,
	"step": 408
	},
	{
	"epoch": 1.07,
	"learning_rate": 7.467365891322996e-06,
	"loss": 1.6683,
	"step": 409
	},
	{
	"epoch": 1.07,
	"learning_rate": 7.455092026062955e-06,
	"loss": 1.6414,
	"step": 410
	},
	{
	"epoch": 1.07,
	"eval_loss": 1.597200870513916,
	"eval_runtime": 221.5771,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 410
	},
	{
	"epoch": 1.07,
	"learning_rate": 7.442798635541749e-06,
	"loss": 1.6526,
	"step": 411
	},
	{
	"epoch": 1.07,
	"learning_rate": 7.430485817528281e-06,
	"loss": 1.7332,
	"step": 412
	},
	{
	"epoch": 1.08,
	"learning_rate": 7.418153669945966e-06,
	"loss": 1.7415,
	"step": 413
	},
	{
	"epoch": 1.08,
	"learning_rate": 7.40580229087194e-06,
	"loss": 1.681,
	"step": 414
	},
	{
	"epoch": 1.08,
	"learning_rate": 7.3934317785362905e-06,
	"loss": 1.6391,
	"step": 415
	},
	{
	"epoch": 1.08,
	"learning_rate": 7.381042231321269e-06,
	"loss": 1.6842,
	"step": 416
	},
	{
	"epoch": 1.09,
	"learning_rate": 7.368633747760515e-06,
	"loss": 1.6552,
	"step": 417
	},
	{
	"epoch": 1.09,
	"learning_rate": 7.356206426538262e-06,
	"loss": 1.5381,
	"step": 418
	},
	{
	"epoch": 1.09,
	"learning_rate": 7.343760366488564e-06,
	"loss": 1.6983,
	"step": 419
	},
	{
	"epoch": 1.09,
	"learning_rate": 7.3312956665945e-06,
	"loss": 1.6856,
	"step": 420
	},
	{
	"epoch": 1.09,
	"eval_loss": 1.5951831340789795,
	"eval_runtime": 221.5238,
	"eval_samples_per_second": 11.674,
	"eval_steps_per_second": 0.731,
	"step": 420
	},
	{
	"epoch": 1.1,
	"learning_rate": 7.3188124259873946e-06,
	"loss": 1.6686,
	"step": 421
	},
	{
	"epoch": 1.1,
	"learning_rate": 7.306310743946024e-06,
	"loss": 1.7121,
	"step": 422
	},
	{
	"epoch": 1.1,
	"learning_rate": 7.29379071989583e-06,
	"loss": 1.6359,
	"step": 423
	},
	{
	"epoch": 1.1,
	"learning_rate": 7.281252453408125e-06,
	"loss": 1.5617,
	"step": 424
	},
	{
	"epoch": 1.11,
	"learning_rate": 7.268696044199305e-06,
	"loss": 1.5664,
	"step": 425
	},
	{
	"epoch": 1.11,
	"learning_rate": 7.2561215921300545e-06,
	"loss": 1.5337,
	"step": 426
	},
	{
	"epoch": 1.11,
	"learning_rate": 7.243529197204552e-06,
	"loss": 1.6212,
	"step": 427
	},
	{
	"epoch": 1.11,
	"learning_rate": 7.230918959569675e-06,
	"loss": 1.5584,
	"step": 428
	},
	{
	"epoch": 1.12,
	"learning_rate": 7.218290979514202e-06,
	"loss": 1.579,
	"step": 429
	},
	{
	"epoch": 1.12,
	"learning_rate": 7.205645357468016e-06,
	"loss": 1.6491,
	"step": 430
	},
	{
	"epoch": 1.12,
	"eval_loss": 1.5929887294769287,
	"eval_runtime": 221.6187,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 430
	},
	{
	"epoch": 1.12,
	"learning_rate": 7.192982194001312e-06,
	"loss": 1.6226,
	"step": 431
	},
	{
	"epoch": 1.13,
	"learning_rate": 7.180301589823784e-06,
	"loss": 1.5809,
	"step": 432
	},
	{
	"epoch": 1.13,
	"learning_rate": 7.167603645783835e-06,
	"loss": 1.6546,
	"step": 433
	},
	{
	"epoch": 1.13,
	"learning_rate": 7.154888462867771e-06,
	"loss": 1.7025,
	"step": 434
	},
	{
	"epoch": 1.13,
	"learning_rate": 7.142156142198997e-06,
	"loss": 1.7083,
	"step": 435
	},
	{
	"epoch": 1.14,
	"learning_rate": 7.129406785037214e-06,
	"loss": 1.674,
	"step": 436
	},
	{
	"epoch": 1.14,
	"learning_rate": 7.116640492777617e-06,
	"loss": 1.6955,
	"step": 437
	},
	{
	"epoch": 1.14,
	"learning_rate": 7.103857366950081e-06,
	"loss": 1.5851,
	"step": 438
	},
	{
	"epoch": 1.14,
	"learning_rate": 7.091057509218357e-06,
	"loss": 1.6826,
	"step": 439
	},
	{
	"epoch": 1.15,
	"learning_rate": 7.078241021379272e-06,
	"loss": 1.6736,
	"step": 440
	},
	{
	"epoch": 1.15,
	"eval_loss": 1.591227412223816,
	"eval_runtime": 221.512,
	"eval_samples_per_second": 11.674,
	"eval_steps_per_second": 0.731,
	"step": 440
	},
	{
	"epoch": 1.15,
	"learning_rate": 7.065408005361902e-06,
	"loss": 1.5673,
	"step": 441
	},
	{
	"epoch": 1.15,
	"learning_rate": 7.052558563226777e-06,
	"loss": 1.7022,
	"step": 442
	},
	{
	"epoch": 1.15,
	"learning_rate": 7.039692797165061e-06,
	"loss": 1.6071,
	"step": 443
	},
	{
	"epoch": 1.16,
	"learning_rate": 7.026810809497744e-06,
	"loss": 1.5948,
	"step": 444
	},
	{
	"epoch": 1.16,
	"learning_rate": 7.013912702674821e-06,
	"loss": 1.5293,
	"step": 445
	},
	{
	"epoch": 1.16,
	"learning_rate": 7.000998579274487e-06,
	"loss": 1.6306,
	"step": 446
	},
	{
	"epoch": 1.16,
	"learning_rate": 6.988068542002316e-06,
	"loss": 1.732,
	"step": 447
	},
	{
	"epoch": 1.17,
	"learning_rate": 6.9751226936904415e-06,
	"loss": 1.6915,
	"step": 448
	},
	{
	"epoch": 1.17,
	"learning_rate": 6.9621611372967436e-06,
	"loss": 1.6018,
	"step": 449
	},
	{
	"epoch": 1.17,
	"learning_rate": 6.949183975904027e-06,
	"loss": 1.619,
	"step": 450
	},
	{
	"epoch": 1.17,
	"eval_loss": 1.5893467664718628,
	"eval_runtime": 221.6889,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 450
	},
	{
	"epoch": 1.17,
	"learning_rate": 6.9361913127192026e-06,
	"loss": 1.6266,
	"step": 451
	},
	{
	"epoch": 1.18,
	"learning_rate": 6.923183251072468e-06,
	"loss": 1.5814,
	"step": 452
	},
	{
	"epoch": 1.18,
	"learning_rate": 6.910159894416485e-06,
	"loss": 1.6962,
	"step": 453
	},
	{
	"epoch": 1.18,
	"learning_rate": 6.897121346325552e-06,
	"loss": 1.6047,
	"step": 454
	},
	{
	"epoch": 1.19,
	"learning_rate": 6.884067710494788e-06,
	"loss": 1.6322,
	"step": 455
	},
	{
	"epoch": 1.19,
	"learning_rate": 6.870999090739301e-06,
	"loss": 1.6904,
	"step": 456
	},
	{
	"epoch": 1.19,
	"learning_rate": 6.857915590993371e-06,
	"loss": 1.6751,
	"step": 457
	},
	{
	"epoch": 1.19,
	"learning_rate": 6.844817315309611e-06,
	"loss": 1.6209,
	"step": 458
	},
	{
	"epoch": 1.2,
	"learning_rate": 6.831704367858154e-06,
	"loss": 1.5679,
	"step": 459
	},
	{
	"epoch": 1.2,
	"learning_rate": 6.818576852925809e-06,
	"loss": 1.6452,
	"step": 460
	},
	{
	"epoch": 1.2,
	"eval_loss": 1.5870401859283447,
	"eval_runtime": 221.5795,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 460
	},
	{
	"epoch": 1.2,
	"learning_rate": 6.805434874915249e-06,
	"loss": 1.5774,
	"step": 461
	},
	{
	"epoch": 1.2,
	"learning_rate": 6.792278538344161e-06,
	"loss": 1.5994,
	"step": 462
	},
	{
	"epoch": 1.21,
	"learning_rate": 6.779107947844434e-06,
	"loss": 1.7274,
	"step": 463
	},
	{
	"epoch": 1.21,
	"learning_rate": 6.765923208161313e-06,
	"loss": 1.673,
	"step": 464
	},
	{
	"epoch": 1.21,
	"learning_rate": 6.752724424152575e-06,
	"loss": 1.5622,
	"step": 465
	},
	{
	"epoch": 1.21,
	"learning_rate": 6.739511700787683e-06,
	"loss": 1.5549,
	"step": 466
	},
	{
	"epoch": 1.22,
	"learning_rate": 6.726285143146969e-06,
	"loss": 1.7017,
	"step": 467
	},
	{
	"epoch": 1.22,
	"learning_rate": 6.713044856420781e-06,
	"loss": 1.651,
	"step": 468
	},
	{
	"epoch": 1.22,
	"learning_rate": 6.699790945908662e-06,
	"loss": 1.6616,
	"step": 469
	},
	{
	"epoch": 1.22,
	"learning_rate": 6.686523517018494e-06,
	"loss": 1.6498,
	"step": 470
	},
	{
	"epoch": 1.22,
	"eval_loss": 1.5853816270828247,
	"eval_runtime": 221.6093,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 470
	},
	{
	"epoch": 1.23,
	"learning_rate": 6.67324267526568e-06,
	"loss": 1.7092,
	"step": 471
	},
	{
	"epoch": 1.23,
	"learning_rate": 6.6599485262722885e-06,
	"loss": 1.5833,
	"step": 472
	},
	{
	"epoch": 1.23,
	"learning_rate": 6.646641175766222e-06,
	"loss": 1.543,
	"step": 473
	},
	{
	"epoch": 1.23,
	"learning_rate": 6.633320729580376e-06,
	"loss": 1.7974,
	"step": 474
	},
	{
	"epoch": 1.24,
	"learning_rate": 6.6199872936517915e-06,
	"loss": 1.598,
	"step": 475
	},
	{
	"epoch": 1.24,
	"learning_rate": 6.606640974020824e-06,
	"loss": 1.5978,
	"step": 476
	},
	{
	"epoch": 1.24,
	"learning_rate": 6.593281876830281e-06,
	"loss": 1.6066,
	"step": 477
	},
	{
	"epoch": 1.25,
	"learning_rate": 6.5799101083246e-06,
	"loss": 1.5975,
	"step": 478
	},
	{
	"epoch": 1.25,
	"learning_rate": 6.566525774848988e-06,
	"loss": 1.6255,
	"step": 479
	},
	{
	"epoch": 1.25,
	"learning_rate": 6.553128982848584e-06,
	"loss": 1.675,
	"step": 480
	},
	{
	"epoch": 1.25,
	"eval_loss": 1.5839300155639648,
	"eval_runtime": 221.6131,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 480
	},
	{
	"epoch": 1.25,
	"learning_rate": 6.539719838867604e-06,
	"loss": 1.6697,
	"step": 481
	},
	{
	"epoch": 1.26,
	"learning_rate": 6.526298449548502e-06,
	"loss": 1.6142,
	"step": 482
	},
	{
	"epoch": 1.26,
	"learning_rate": 6.512864921631121e-06,
	"loss": 1.5982,
	"step": 483
	},
	{
	"epoch": 1.26,
	"learning_rate": 6.499419361951837e-06,
	"loss": 1.8056,
	"step": 484
	},
	{
	"epoch": 1.26,
	"learning_rate": 6.4859618774427195e-06,
	"loss": 1.6077,
	"step": 485
	},
	{
	"epoch": 1.27,
	"learning_rate": 6.472492575130671e-06,
	"loss": 1.6571,
	"step": 486
	},
	{
	"epoch": 1.27,
	"learning_rate": 6.459011562136582e-06,
	"loss": 1.5264,
	"step": 487
	},
	{
	"epoch": 1.27,
	"learning_rate": 6.44551894567448e-06,
	"loss": 1.6544,
	"step": 488
	},
	{
	"epoch": 1.27,
	"learning_rate": 6.432014833050671e-06,
	"loss": 1.6281,
	"step": 489
	},
	{
	"epoch": 1.28,
	"learning_rate": 6.41849933166289e-06,
	"loss": 1.684,
	"step": 490
	},
	{
	"epoch": 1.28,
	"eval_loss": 1.5822992324829102,
	"eval_runtime": 221.5143,
	"eval_samples_per_second": 11.674,
	"eval_steps_per_second": 0.731,
	"step": 490
	},
	{
	"epoch": 1.28,
	"learning_rate": 6.404972548999453e-06,
	"loss": 1.5226,
	"step": 491
	},
	{
	"epoch": 1.28,
	"learning_rate": 6.3914345926383855e-06,
	"loss": 1.5802,
	"step": 492
	},
	{
	"epoch": 1.28,
	"learning_rate": 6.3778855702465835e-06,
	"loss": 1.6287,
	"step": 493
	},
	{
	"epoch": 1.29,
	"learning_rate": 6.364325589578948e-06,
	"loss": 1.5856,
	"step": 494
	},
	{
	"epoch": 1.29,
	"learning_rate": 6.350754758477534e-06,
	"loss": 1.6461,
	"step": 495
	},
	{
	"epoch": 1.29,
	"learning_rate": 6.337173184870683e-06,
	"loss": 1.7742,
	"step": 496
	},
	{
	"epoch": 1.29,
	"learning_rate": 6.323580976772181e-06,
	"loss": 1.6065,
	"step": 497
	},
	{
	"epoch": 1.3,
	"learning_rate": 6.309978242280382e-06,
	"loss": 1.647,
	"step": 498
	},
	{
	"epoch": 1.3,
	"learning_rate": 6.2963650895773566e-06,
	"loss": 1.5884,
	"step": 499
	},
	{
	"epoch": 1.3,
	"learning_rate": 6.282741626928036e-06,
	"loss": 1.6379,
	"step": 500
	},
	{
	"epoch": 1.3,
	"eval_loss": 1.5801777839660645,
	"eval_runtime": 221.7292,
	"eval_samples_per_second": 11.663,
	"eval_steps_per_second": 0.731,
	"step": 500
	},
	{
	"epoch": 1.31,
	"learning_rate": 6.269107962679344e-06,
	"loss": 1.633,
	"step": 501
	},
	{
	"epoch": 1.31,
	"learning_rate": 6.255464205259332e-06,
	"loss": 1.7188,
	"step": 502
	},
	{
	"epoch": 1.31,
	"learning_rate": 6.241810463176329e-06,
	"loss": 1.558,
	"step": 503
	},
	{
	"epoch": 1.31,
	"learning_rate": 6.228146845018068e-06,
	"loss": 1.5924,
	"step": 504
	},
	{
	"epoch": 1.32,
	"learning_rate": 6.214473459450828e-06,
	"loss": 1.6427,
	"step": 505
	},
	{
	"epoch": 1.32,
	"learning_rate": 6.200790415218568e-06,
	"loss": 1.6439,
	"step": 506
	},
	{
	"epoch": 1.32,
	"learning_rate": 6.187097821142061e-06,
	"loss": 1.6606,
	"step": 507
	},
	{
	"epoch": 1.32,
	"learning_rate": 6.173395786118026e-06,
	"loss": 1.7101,
	"step": 508
	},
	{
	"epoch": 1.33,
	"learning_rate": 6.159684419118274e-06,
	"loss": 1.6778,
	"step": 509
	},
	{
	"epoch": 1.33,
	"learning_rate": 6.145963829188823e-06,
	"loss": 1.5173,
	"step": 510
	},
	{
	"epoch": 1.33,
	"eval_loss": 1.5786410570144653,
	"eval_runtime": 221.549,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 510
	},
	{
	"epoch": 1.33,
	"learning_rate": 6.1322341254490515e-06,
	"loss": 1.6827,
	"step": 511
	},
	{
	"epoch": 1.33,
	"learning_rate": 6.118495417090809e-06,
	"loss": 1.5186,
	"step": 512
	},
	{
	"epoch": 1.34,
	"learning_rate": 6.104747813377567e-06,
	"loss": 1.633,
	"step": 513
	},
	{
	"epoch": 1.34,
	"learning_rate": 6.0909914236435355e-06,
	"loss": 1.6671,
	"step": 514
	},
	{
	"epoch": 1.34,
	"learning_rate": 6.077226357292802e-06,
	"loss": 1.6258,
	"step": 515
	},
	{
	"epoch": 1.34,
	"learning_rate": 6.063452723798461e-06,
	"loss": 1.6377,
	"step": 516
	},
	{
	"epoch": 1.35,
	"learning_rate": 6.0496706327017355e-06,
	"loss": 1.5934,
	"step": 517
	},
	{
	"epoch": 1.35,
	"learning_rate": 6.0358801936111145e-06,
	"loss": 1.5484,
	"step": 518
	},
	{
	"epoch": 1.35,
	"learning_rate": 6.022081516201483e-06,
	"loss": 1.6516,
	"step": 519
	},
	{
	"epoch": 1.35,
	"learning_rate": 6.008274710213235e-06,
	"loss": 1.6443,
	"step": 520
	},
	{
	"epoch": 1.35,
	"eval_loss": 1.577327013015747,
	"eval_runtime": 221.6766,
	"eval_samples_per_second": 11.666,
	"eval_steps_per_second": 0.731,
	"step": 520
	},
	{
	"epoch": 1.36,
	"learning_rate": 5.994459885451423e-06,
	"loss": 1.6277,
	"step": 521
	},
	{
	"epoch": 1.36,
	"learning_rate": 5.9806371517848605e-06,
	"loss": 1.6301,
	"step": 522
	},
	{
	"epoch": 1.36,
	"learning_rate": 5.966806619145268e-06,
	"loss": 1.6091,
	"step": 523
	},
	{
	"epoch": 1.37,
	"learning_rate": 5.952968397526388e-06,
	"loss": 1.6848,
	"step": 524
	},
	{
	"epoch": 1.37,
	"learning_rate": 5.9391225969831145e-06,
	"loss": 1.5756,
	"step": 525
	},
	{
	"epoch": 1.37,
	"learning_rate": 5.925269327630615e-06,
	"loss": 1.6308,
	"step": 526
	},
	{
	"epoch": 1.37,
	"learning_rate": 5.911408699643458e-06,
	"loss": 1.5454,
	"step": 527
	},
	{
	"epoch": 1.38,
	"learning_rate": 5.897540823254735e-06,
	"loss": 1.6046,
	"step": 528
	},
	{
	"epoch": 1.38,
	"learning_rate": 5.883665808755179e-06,
	"loss": 1.6638,
	"step": 529
	},
	{
	"epoch": 1.38,
	"learning_rate": 5.8697837664923e-06,
	"loss": 1.5628,
	"step": 530
	},
	{
	"epoch": 1.38,
	"eval_loss": 1.5755133628845215,
	"eval_runtime": 221.5842,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 530
	},
	{
	"epoch": 1.38,
	"learning_rate": 5.855894806869493e-06,
	"loss": 1.6173,
	"step": 531
	},
	{
	"epoch": 1.39,
	"learning_rate": 5.841999040345168e-06,
	"loss": 1.5758,
	"step": 532
	},
	{
	"epoch": 1.39,
	"learning_rate": 5.828096577431874e-06,
	"loss": 1.6503,
	"step": 533
	},
	{
	"epoch": 1.39,
	"learning_rate": 5.814187528695412e-06,
	"loss": 1.6151,
	"step": 534
	},
	{
	"epoch": 1.39,
	"learning_rate": 5.800272004753961e-06,
	"loss": 1.5789,
	"step": 535
	},
	{
	"epoch": 1.4,
	"learning_rate": 5.786350116277195e-06,
	"loss": 1.5589,
	"step": 536
	},
	{
	"epoch": 1.4,
	"learning_rate": 5.772421973985412e-06,
	"loss": 1.6134,
	"step": 537
	},
	{
	"epoch": 1.4,
	"learning_rate": 5.758487688648635e-06,
	"loss": 1.5238,
	"step": 538
	},
	{
	"epoch": 1.4,
	"learning_rate": 5.744547371085752e-06,
	"loss": 1.6672,
	"step": 539
	},
	{
	"epoch": 1.41,
	"learning_rate": 5.730601132163623e-06,
	"loss": 1.7287,
	"step": 540
	},
	{
	"epoch": 1.41,
	"eval_loss": 1.5738086700439453,
	"eval_runtime": 221.6243,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 540
	},
	{
	"epoch": 1.41,
	"learning_rate": 5.716649082796199e-06,
	"loss": 1.5054,
	"step": 541
	},
	{
	"epoch": 1.41,
	"learning_rate": 5.702691333943638e-06,
	"loss": 1.7154,
	"step": 542
	},
	{
	"epoch": 1.41,
	"learning_rate": 5.688727996611434e-06,
	"loss": 1.5585,
	"step": 543
	},
	{
	"epoch": 1.42,
	"learning_rate": 5.6747591818495185e-06,
	"loss": 1.625,
	"step": 544
	},
	{
	"epoch": 1.42,
	"learning_rate": 5.6607850007513876e-06,
	"loss": 1.6745,
	"step": 545
	},
	{
	"epoch": 1.42,
	"learning_rate": 5.646805564453216e-06,
	"loss": 1.748,
	"step": 546
	},
	{
	"epoch": 1.42,
	"learning_rate": 5.632820984132973e-06,
	"loss": 1.6759,
	"step": 547
	},
	{
	"epoch": 1.43,
	"learning_rate": 5.6188313710095375e-06,
	"loss": 1.636,
	"step": 548
	},
	{
	"epoch": 1.43,
	"learning_rate": 5.604836836341816e-06,
	"loss": 1.5845,
	"step": 549
	},
	{
	"epoch": 1.43,
	"learning_rate": 5.5908374914278495e-06,
	"loss": 1.5615,
	"step": 550
	},
	{
	"epoch": 1.43,
	"eval_loss": 1.5724763870239258,
	"eval_runtime": 221.5669,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 550
	},
	{
	"epoch": 1.44,
	"learning_rate": 5.576833447603943e-06,
	"loss": 1.5203,
	"step": 551
	},
	{
	"epoch": 1.44,
	"learning_rate": 5.562824816243769e-06,
	"loss": 1.6132,
	"step": 552
	},
	{
	"epoch": 1.44,
	"learning_rate": 5.5488117087574785e-06,
	"loss": 1.6566,
	"step": 553
	},
	{
	"epoch": 1.44,
	"learning_rate": 5.5347942365908315e-06,
	"loss": 1.6915,
	"step": 554
	},
	{
	"epoch": 1.45,
	"learning_rate": 5.520772511224293e-06,
	"loss": 1.739,
	"step": 555
	},
	{
	"epoch": 1.45,
	"learning_rate": 5.506746644172154e-06,
	"loss": 1.5929,
	"step": 556
	},
	{
	"epoch": 1.45,
	"learning_rate": 5.492716746981646e-06,
	"loss": 1.5804,
	"step": 557
	},
	{
	"epoch": 1.45,
	"learning_rate": 5.478682931232053e-06,
	"loss": 1.6294,
	"step": 558
	},
	{
	"epoch": 1.46,
	"learning_rate": 5.46464530853382e-06,
	"loss": 1.6411,
	"step": 559
	},
	{
	"epoch": 1.46,
	"learning_rate": 5.45060399052767e-06,
	"loss": 1.6129,
	"step": 560
	},
	{
	"epoch": 1.46,
	"eval_loss": 1.5711848735809326,
	"eval_runtime": 221.6895,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 560
	},
	{
	"epoch": 1.46,
	"learning_rate": 5.4365590888837175e-06,
	"loss": 1.6629,
	"step": 561
	},
	{
	"epoch": 1.46,
	"learning_rate": 5.4225107153005715e-06,
	"loss": 1.6555,
	"step": 562
	},
	{
	"epoch": 1.47,
	"learning_rate": 5.408458981504458e-06,
	"loss": 1.5144,
	"step": 563
	},
	{
	"epoch": 1.47,
	"learning_rate": 5.394403999248327e-06,
	"loss": 1.5986,
	"step": 564
	},
	{
	"epoch": 1.47,
	"learning_rate": 5.3803458803109606e-06,
	"loss": 1.6898,
	"step": 565
	},
	{
	"epoch": 1.47,
	"learning_rate": 5.3662847364960855e-06,
	"loss": 1.6196,
	"step": 566
	},
	{
	"epoch": 1.48,
	"learning_rate": 5.352220679631491e-06,
	"loss": 1.6847,
	"step": 567
	},
	{
	"epoch": 1.48,
	"learning_rate": 5.338153821568127e-06,
	"loss": 1.6208,
	"step": 568
	},
	{
	"epoch": 1.48,
	"learning_rate": 5.324084274179228e-06,
	"loss": 1.6083,
	"step": 569
	},
	{
	"epoch": 1.48,
	"learning_rate": 5.310012149359411e-06,
	"loss": 1.6709,
	"step": 570
	},
	{
	"epoch": 1.48,
	"eval_loss": 1.5699827671051025,
	"eval_runtime": 221.5944,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 570
	},
	{
	"epoch": 1.49,
	"learning_rate": 5.295937559023794e-06,
	"loss": 1.565,
	"step": 571
	},
	{
	"epoch": 1.49,
	"learning_rate": 5.2818606151071015e-06,
	"loss": 1.667,
	"step": 572
	},
	{
	"epoch": 1.49,
	"learning_rate": 5.26778142956278e-06,
	"loss": 1.4954,
	"step": 573
	},
	{
	"epoch": 1.5,
	"learning_rate": 5.253700114362096e-06,
	"loss": 1.5335,
	"step": 574
	},
	{
	"epoch": 1.5,
	"learning_rate": 5.23961678149326e-06,
	"loss": 1.645,
	"step": 575
	},
	{
	"epoch": 1.5,
	"learning_rate": 5.225531542960528e-06,
	"loss": 1.5962,
	"step": 576
	},
	{
	"epoch": 1.5,
	"learning_rate": 5.211444510783309e-06,
	"loss": 1.6939,
	"step": 577
	},
	{
	"epoch": 1.51,
	"learning_rate": 5.197355796995277e-06,
	"loss": 1.6092,
	"step": 578
	},
	{
	"epoch": 1.51,
	"learning_rate": 5.183265513643484e-06,
	"loss": 1.5633,
	"step": 579
	},
	{
	"epoch": 1.51,
	"learning_rate": 5.169173772787458e-06,
	"loss": 1.5818,
	"step": 580
	},
	{
	"epoch": 1.51,
	"eval_loss": 1.5683159828186035,
	"eval_runtime": 221.5828,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 580
	},
	{
	"epoch": 1.51,
	"learning_rate": 5.1550806864983235e-06,
	"loss": 1.6241,
	"step": 581
	},
	{
	"epoch": 1.52,
	"learning_rate": 5.140986366857904e-06,
	"loss": 1.6045,
	"step": 582
	},
	{
	"epoch": 1.52,
	"learning_rate": 5.126890925957832e-06,
	"loss": 1.6047,
	"step": 583
	},
	{
	"epoch": 1.52,
	"learning_rate": 5.1127944758986545e-06,
	"loss": 1.6186,
	"step": 584
	},
	{
	"epoch": 1.52,
	"learning_rate": 5.098697128788951e-06,
	"loss": 1.5565,
	"step": 585
	},
	{
	"epoch": 1.53,
	"learning_rate": 5.084598996744426e-06,
	"loss": 1.6093,
	"step": 586
	},
	{
	"epoch": 1.53,
	"learning_rate": 5.070500191887034e-06,
	"loss": 1.5773,
	"step": 587
	},
	{
	"epoch": 1.53,
	"learning_rate": 5.056400826344078e-06,
	"loss": 1.6378,
	"step": 588
	},
	{
	"epoch": 1.53,
	"learning_rate": 5.042301012247317e-06,
	"loss": 1.6531,
	"step": 589
	},
	{
	"epoch": 1.54,
	"learning_rate": 5.028200861732083e-06,
	"loss": 1.6358,
	"step": 590
	},
	{
	"epoch": 1.54,
	"eval_loss": 1.567191481590271,
	"eval_runtime": 221.5558,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 590
	},
	{
	"epoch": 1.54,
	"learning_rate": 5.014100486936383e-06,
	"loss": 1.6578,
	"step": 591
	},
	{
	"epoch": 1.54,
	"learning_rate": 5e-06,
	"loss": 1.5503,
	"step": 592
	},
	{
	"epoch": 1.54,
	"learning_rate": 4.985899513063618e-06,
	"loss": 1.5313,
	"step": 593
	},
	{
	"epoch": 1.55,
	"learning_rate": 4.971799138267918e-06,
	"loss": 1.5539,
	"step": 594
	},
	{
	"epoch": 1.55,
	"learning_rate": 4.957698987752684e-06,
	"loss": 1.6979,
	"step": 595
	},
	{
	"epoch": 1.55,
	"learning_rate": 4.943599173655924e-06,
	"loss": 1.6068,
	"step": 596
	},
	{
	"epoch": 1.56,
	"learning_rate": 4.929499808112969e-06,
	"loss": 1.6521,
	"step": 597
	},
	{
	"epoch": 1.56,
	"learning_rate": 4.915401003255577e-06,
	"loss": 1.6487,
	"step": 598
	},
	{
	"epoch": 1.56,
	"learning_rate": 4.9013028712110526e-06,
	"loss": 1.7284,
	"step": 599
	},
	{
	"epoch": 1.56,
	"learning_rate": 4.8872055241013455e-06,
	"loss": 1.6513,
	"step": 600
	},
	{
	"epoch": 1.56,
	"eval_loss": 1.566185474395752,
	"eval_runtime": 221.56,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 600
	},
	{
	"epoch": 1.57,
	"learning_rate": 4.873109074042169e-06,
	"loss": 1.541,
	"step": 601
	},
	{
	"epoch": 1.57,
	"learning_rate": 4.859013633142096e-06,
	"loss": 1.6876,
	"step": 602
	},
	{
	"epoch": 1.57,
	"learning_rate": 4.844919313501677e-06,
	"loss": 1.607,
	"step": 603
	},
	{
	"epoch": 1.57,
	"learning_rate": 4.830826227212543e-06,
	"loss": 1.6963,
	"step": 604
	},
	{
	"epoch": 1.58,
	"learning_rate": 4.816734486356518e-06,
	"loss": 1.5876,
	"step": 605
	},
	{
	"epoch": 1.58,
	"learning_rate": 4.802644203004724e-06,
	"loss": 1.6434,
	"step": 606
	},
	{
	"epoch": 1.58,
	"learning_rate": 4.788555489216692e-06,
	"loss": 1.678,
	"step": 607
	},
	{
	"epoch": 1.58,
	"learning_rate": 4.7744684570394734e-06,
	"loss": 1.5858,
	"step": 608
	},
	{
	"epoch": 1.59,
	"learning_rate": 4.760383218506742e-06,
	"loss": 1.5771,
	"step": 609
	},
	{
	"epoch": 1.59,
	"learning_rate": 4.7462998856379065e-06,
	"loss": 1.5637,
	"step": 610
	},
	{
	"epoch": 1.59,
	"eval_loss": 1.5654144287109375,
	"eval_runtime": 221.6983,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 610
	},
	{
	"epoch": 1.59,
	"learning_rate": 4.732218570437224e-06,
	"loss": 1.6174,
	"step": 611
	},
	{
	"epoch": 1.59,
	"learning_rate": 4.7181393848929e-06,
	"loss": 1.6466,
	"step": 612
	},
	{
	"epoch": 1.6,
	"learning_rate": 4.704062440976209e-06,
	"loss": 1.5726,
	"step": 613
	},
	{
	"epoch": 1.6,
	"learning_rate": 4.6899878506405904e-06,
	"loss": 1.6325,
	"step": 614
	},
	{
	"epoch": 1.6,
	"learning_rate": 4.675915725820773e-06,
	"loss": 1.7229,
	"step": 615
	},
	{
	"epoch": 1.6,
	"learning_rate": 4.661846178431873e-06,
	"loss": 1.5601,
	"step": 616
	},
	{
	"epoch": 1.61,
	"learning_rate": 4.64777932036851e-06,
	"loss": 1.6655,
	"step": 617
	},
	{
	"epoch": 1.61,
	"learning_rate": 4.633715263503915e-06,
	"loss": 1.5783,
	"step": 618
	},
	{
	"epoch": 1.61,
	"learning_rate": 4.619654119689041e-06,
	"loss": 1.6456,
	"step": 619
	},
	{
	"epoch": 1.62,
	"learning_rate": 4.6055960007516734e-06,
	"loss": 1.612,
	"step": 620
	},
	{
	"epoch": 1.62,
	"eval_loss": 1.5643430948257446,
	"eval_runtime": 221.536,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 620
	},
	{
	"epoch": 1.62,
	"learning_rate": 4.591541018495543e-06,
	"loss": 1.5746,
	"step": 621
	},
	{
	"epoch": 1.62,
	"learning_rate": 4.577489284699429e-06,
	"loss": 1.6141,
	"step": 622
	},
	{
	"epoch": 1.62,
	"learning_rate": 4.563440911116283e-06,
	"loss": 1.5741,
	"step": 623
	},
	{
	"epoch": 1.63,
	"learning_rate": 4.549396009472331e-06,
	"loss": 1.6693,
	"step": 624
	},
	{
	"epoch": 1.63,
	"learning_rate": 4.535354691466181e-06,
	"loss": 1.5201,
	"step": 625
	},
	{
	"epoch": 1.63,
	"learning_rate": 4.521317068767949e-06,
	"loss": 1.6772,
	"step": 626
	},
	{
	"epoch": 1.63,
	"learning_rate": 4.507283253018355e-06,
	"loss": 1.6413,
	"step": 627
	},
	{
	"epoch": 1.64,
	"learning_rate": 4.493253355827846e-06,
	"loss": 1.6118,
	"step": 628
	},
	{
	"epoch": 1.64,
	"learning_rate": 4.479227488775707e-06,
	"loss": 1.6488,
	"step": 629
	},
	{
	"epoch": 1.64,
	"learning_rate": 4.465205763409169e-06,
	"loss": 1.6396,
	"step": 630
	},
	{
	"epoch": 1.64,
	"eval_loss": 1.5630210638046265,
	"eval_runtime": 221.6501,
	"eval_samples_per_second": 11.667,
	"eval_steps_per_second": 0.731,
	"step": 630
	},
	{
	"epoch": 1.64,
	"learning_rate": 4.4511882912425214e-06,
	"loss": 1.6083,
	"step": 631
	},
	{
	"epoch": 1.65,
	"learning_rate": 4.437175183756233e-06,
	"loss": 1.6805,
	"step": 632
	},
	{
	"epoch": 1.65,
	"learning_rate": 4.4231665523960574e-06,
	"loss": 1.6304,
	"step": 633
	},
	{
	"epoch": 1.65,
	"learning_rate": 4.409162508572151e-06,
	"loss": 1.6537,
	"step": 634
	},
	{
	"epoch": 1.65,
	"learning_rate": 4.395163163658186e-06,
	"loss": 1.6465,
	"step": 635
	},
	{
	"epoch": 1.66,
	"learning_rate": 4.381168628990463e-06,
	"loss": 1.5872,
	"step": 636
	},
	{
	"epoch": 1.66,
	"learning_rate": 4.367179015867028e-06,
	"loss": 1.6445,
	"step": 637
	},
	{
	"epoch": 1.66,
	"learning_rate": 4.3531944355467855e-06,
	"loss": 1.7094,
	"step": 638
	},
	{
	"epoch": 1.66,
	"learning_rate": 4.339214999248614e-06,
	"loss": 1.5845,
	"step": 639
	},
	{
	"epoch": 1.67,
	"learning_rate": 4.325240818150485e-06,
	"loss": 1.6414,
	"step": 640
	},
	{
	"epoch": 1.67,
	"eval_loss": 1.5620007514953613,
	"eval_runtime": 221.5034,
	"eval_samples_per_second": 11.675,
	"eval_steps_per_second": 0.731,
	"step": 640
	},
	{
	"epoch": 1.67,
	"learning_rate": 4.311272003388569e-06,
	"loss": 1.6654,
	"step": 641
	},
	{
	"epoch": 1.67,
	"learning_rate": 4.297308666056363e-06,
	"loss": 1.5831,
	"step": 642
	},
	{
	"epoch": 1.68,
	"learning_rate": 4.283350917203802e-06,
	"loss": 1.6675,
	"step": 643
	},
	{
	"epoch": 1.68,
	"learning_rate": 4.269398867836377e-06,
	"loss": 1.5759,
	"step": 644
	},
	{
	"epoch": 1.68,
	"learning_rate": 4.255452628914248e-06,
	"loss": 1.6232,
	"step": 645
	},
	{
	"epoch": 1.68,
	"learning_rate": 4.2415123113513665e-06,
	"loss": 1.6168,
	"step": 646
	},
	{
	"epoch": 1.69,
	"learning_rate": 4.22757802601459e-06,
	"loss": 1.6575,
	"step": 647
	},
	{
	"epoch": 1.69,
	"learning_rate": 4.213649883722806e-06,
	"loss": 1.5819,
	"step": 648
	},
	{
	"epoch": 1.69,
	"learning_rate": 4.199727995246041e-06,
	"loss": 1.6676,
	"step": 649
	},
	{
	"epoch": 1.69,
	"learning_rate": 4.185812471304589e-06,
	"loss": 1.6096,
	"step": 650
	},
	{
	"epoch": 1.69,
	"eval_loss": 1.5610833168029785,
	"eval_runtime": 221.6192,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 650
	},
	{
	"epoch": 1.7,
	"learning_rate": 4.171903422568128e-06,
	"loss": 1.6859,
	"step": 651
	},
	{
	"epoch": 1.7,
	"learning_rate": 4.158000959654833e-06,
	"loss": 1.6561,
	"step": 652
	},
	{
	"epoch": 1.7,
	"learning_rate": 4.1441051931305095e-06,
	"loss": 1.7081,
	"step": 653
	},
	{
	"epoch": 1.7,
	"learning_rate": 4.130216233507702e-06,
	"loss": 1.6924,
	"step": 654
	},
	{
	"epoch": 1.71,
	"learning_rate": 4.116334191244823e-06,
	"loss": 1.6573,
	"step": 655
	},
	{
	"epoch": 1.71,
	"learning_rate": 4.102459176745267e-06,
	"loss": 1.5603,
	"step": 656
	},
	{
	"epoch": 1.71,
	"learning_rate": 4.088591300356543e-06,
	"loss": 1.5204,
	"step": 657
	},
	{
	"epoch": 1.71,
	"learning_rate": 4.074730672369386e-06,
	"loss": 1.5972,
	"step": 658
	},
	{
	"epoch": 1.72,
	"learning_rate": 4.060877403016886e-06,
	"loss": 1.6257,
	"step": 659
	},
	{
	"epoch": 1.72,
	"learning_rate": 4.047031602473613e-06,
	"loss": 1.6149,
	"step": 660
	},
	{
	"epoch": 1.72,
	"eval_loss": 1.560268521308899,
	"eval_runtime": 221.5662,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 660
	},
	{
	"epoch": 1.72,
	"learning_rate": 4.033193380854733e-06,
	"loss": 1.6141,
	"step": 661
	},
	{
	"epoch": 1.72,
	"learning_rate": 4.019362848215141e-06,
	"loss": 1.646,
	"step": 662
	},
	{
	"epoch": 1.73,
	"learning_rate": 4.00554011454858e-06,
	"loss": 1.6241,
	"step": 663
	},
	{
	"epoch": 1.73,
	"learning_rate": 3.991725289786766e-06,
	"loss": 1.5474,
	"step": 664
	},
	{
	"epoch": 1.73,
	"learning_rate": 3.977918483798519e-06,
	"loss": 1.6931,
	"step": 665
	},
	{
	"epoch": 1.73,
	"learning_rate": 3.964119806388887e-06,
	"loss": 1.6239,
	"step": 666
	},
	{
	"epoch": 1.74,
	"learning_rate": 3.950329367298268e-06,
	"loss": 1.716,
	"step": 667
	},
	{
	"epoch": 1.74,
	"learning_rate": 3.936547276201542e-06,
	"loss": 1.5429,
	"step": 668
	},
	{
	"epoch": 1.74,
	"learning_rate": 3.9227736427071995e-06,
	"loss": 1.628,
	"step": 669
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.909008576356467e-06,
	"loss": 1.5886,
	"step": 670
	},
	{
	"epoch": 1.75,
	"eval_loss": 1.5592665672302246,
	"eval_runtime": 221.6247,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 670
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.895252186622433e-06,
	"loss": 1.7161,
	"step": 671
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.8815045829091915e-06,
	"loss": 1.6288,
	"step": 672
	},
	{
	"epoch": 1.75,
	"learning_rate": 3.867765874550949e-06,
	"loss": 1.5689,
	"step": 673
	},
	{
	"epoch": 1.76,
	"learning_rate": 3.854036170811176e-06,
	"loss": 1.6022,
	"step": 674
	},
	{
	"epoch": 1.76,
	"learning_rate": 3.840315580881728e-06,
	"loss": 1.531,
	"step": 675
	},
	{
	"epoch": 1.76,
	"learning_rate": 3.826604213881975e-06,
	"loss": 1.6102,
	"step": 676
	},
	{
	"epoch": 1.76,
	"learning_rate": 3.812902178857941e-06,
	"loss": 1.6612,
	"step": 677
	},
	{
	"epoch": 1.77,
	"learning_rate": 3.7992095847814337e-06,
	"loss": 1.6132,
	"step": 678
	},
	{
	"epoch": 1.77,
	"learning_rate": 3.785526540549173e-06,
	"loss": 1.5645,
	"step": 679
	},
	{
	"epoch": 1.77,
	"learning_rate": 3.771853154981934e-06,
	"loss": 1.537,
	"step": 680
	},
	{
	"epoch": 1.77,
	"eval_loss": 1.5582250356674194,
	"eval_runtime": 221.5377,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 680
	},
	{
	"epoch": 1.77,
	"learning_rate": 3.758189536823673e-06,
	"loss": 1.6137,
	"step": 681
	},
	{
	"epoch": 1.78,
	"learning_rate": 3.7445357947406714e-06,
	"loss": 1.6117,
	"step": 682
	},
	{
	"epoch": 1.78,
	"learning_rate": 3.730892037320659e-06,
	"loss": 1.5968,
	"step": 683
	},
	{
	"epoch": 1.78,
	"learning_rate": 3.717258373071965e-06,
	"loss": 1.5811,
	"step": 684
	},
	{
	"epoch": 1.78,
	"learning_rate": 3.7036349104226434e-06,
	"loss": 1.6562,
	"step": 685
	},
	{
	"epoch": 1.79,
	"learning_rate": 3.6900217577196183e-06,
	"loss": 1.5226,
	"step": 686
	},
	{
	"epoch": 1.79,
	"learning_rate": 3.67641902322782e-06,
	"loss": 1.641,
	"step": 687
	},
	{
	"epoch": 1.79,
	"learning_rate": 3.662826815129317e-06,
	"loss": 1.5802,
	"step": 688
	},
	{
	"epoch": 1.79,
	"learning_rate": 3.6492452415224675e-06,
	"loss": 1.6854,
	"step": 689
	},
	{
	"epoch": 1.8,
	"learning_rate": 3.6356744104210528e-06,
	"loss": 1.5883,
	"step": 690
	},
	{
	"epoch": 1.8,
	"eval_loss": 1.5573909282684326,
	"eval_runtime": 221.6972,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 690
	},
	{
	"epoch": 1.8,
	"learning_rate": 3.6221144297534178e-06,
	"loss": 1.6555,
	"step": 691
	},
	{
	"epoch": 1.8,
	"learning_rate": 3.608565407361615e-06,
	"loss": 1.5577,
	"step": 692
	},
	{
	"epoch": 1.81,
	"learning_rate": 3.595027451000549e-06,
	"loss": 1.5049,
	"step": 693
	},
	{
	"epoch": 1.81,
	"learning_rate": 3.58150066833711e-06,
	"loss": 1.4957,
	"step": 694
	},
	{
	"epoch": 1.81,
	"learning_rate": 3.567985166949331e-06,
	"loss": 1.6509,
	"step": 695
	},
	{
	"epoch": 1.81,
	"learning_rate": 3.554481054325522e-06,
	"loss": 1.6039,
	"step": 696
	},
	{
	"epoch": 1.82,
	"learning_rate": 3.540988437863421e-06,
	"loss": 1.5138,
	"step": 697
	},
	{
	"epoch": 1.82,
	"learning_rate": 3.527507424869332e-06,
	"loss": 1.6161,
	"step": 698
	},
	{
	"epoch": 1.82,
	"learning_rate": 3.5140381225572826e-06,
	"loss": 1.6566,
	"step": 699
	},
	{
	"epoch": 1.82,
	"learning_rate": 3.5005806380481634e-06,
	"loss": 1.6512,
	"step": 700
	},
	{
	"epoch": 1.82,
	"eval_loss": 1.556625247001648,
	"eval_runtime": 221.5959,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 700
	},
	{
	"epoch": 1.83,
	"learning_rate": 3.4871350783688795e-06,
	"loss": 1.5832,
	"step": 701
	},
	{
	"epoch": 1.83,
	"learning_rate": 3.4737015504514993e-06,
	"loss": 1.6393,
	"step": 702
	},
	{
	"epoch": 1.83,
	"learning_rate": 3.4602801611323977e-06,
	"loss": 1.5706,
	"step": 703
	},
	{
	"epoch": 1.83,
	"learning_rate": 3.4468710171514175e-06,
	"loss": 1.5715,
	"step": 704
	},
	{
	"epoch": 1.84,
	"learning_rate": 3.4334742251510127e-06,
	"loss": 1.5803,
	"step": 705
	},
	{
	"epoch": 1.84,
	"learning_rate": 3.420089891675401e-06,
	"loss": 1.7129,
	"step": 706
	},
	{
	"epoch": 1.84,
	"learning_rate": 3.40671812316972e-06,
	"loss": 1.6066,
	"step": 707
	},
	{
	"epoch": 1.84,
	"learning_rate": 3.393359025979178e-06,
	"loss": 1.6188,
	"step": 708
	},
	{
	"epoch": 1.85,
	"learning_rate": 3.3800127063482097e-06,
	"loss": 1.7055,
	"step": 709
	},
	{
	"epoch": 1.85,
	"learning_rate": 3.366679270419626e-06,
	"loss": 1.683,
	"step": 710
	},
	{
	"epoch": 1.85,
	"eval_loss": 1.5559163093566895,
	"eval_runtime": 221.6474,
	"eval_samples_per_second": 11.667,
	"eval_steps_per_second": 0.731,
	"step": 710
	},
	{
	"epoch": 1.85,
	"learning_rate": 3.35335882423378e-06,
	"loss": 1.6224,
	"step": 711
	},
	{
	"epoch": 1.85,
	"learning_rate": 3.3400514737277144e-06,
	"loss": 1.5804,
	"step": 712
	},
	{
	"epoch": 1.86,
	"learning_rate": 3.326757324734322e-06,
	"loss": 1.6535,
	"step": 713
	},
	{
	"epoch": 1.86,
	"learning_rate": 3.3134764829815064e-06,
	"loss": 1.6257,
	"step": 714
	},
	{
	"epoch": 1.86,
	"learning_rate": 3.300209054091339e-06,
	"loss": 1.6455,
	"step": 715
	},
	{
	"epoch": 1.87,
	"learning_rate": 3.2869551435792185e-06,
	"loss": 1.5455,
	"step": 716
	},
	{
	"epoch": 1.87,
	"learning_rate": 3.273714856853033e-06,
	"loss": 1.5906,
	"step": 717
	},
	{
	"epoch": 1.87,
	"learning_rate": 3.260488299212319e-06,
	"loss": 1.5916,
	"step": 718
	},
	{
	"epoch": 1.87,
	"learning_rate": 3.247275575847427e-06,
	"loss": 1.7453,
	"step": 719
	},
	{
	"epoch": 1.88,
	"learning_rate": 3.2340767918386883e-06,
	"loss": 1.7059,
	"step": 720
	},
	{
	"epoch": 1.88,
	"eval_loss": 1.5549125671386719,
	"eval_runtime": 221.5512,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 720
	},
	{
	"epoch": 1.88,
	"learning_rate": 3.2208920521555677e-06,
	"loss": 1.7162,
	"step": 721
	},
	{
	"epoch": 1.88,
	"learning_rate": 3.20772146165584e-06,
	"loss": 1.6342,
	"step": 722
	},
	{
	"epoch": 1.88,
	"learning_rate": 3.194565125084753e-06,
	"loss": 1.6197,
	"step": 723
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.181423147074192e-06,
	"loss": 1.6359,
	"step": 724
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.1682956321418484e-06,
	"loss": 1.6265,
	"step": 725
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.15518268469039e-06,
	"loss": 1.4916,
	"step": 726
	},
	{
	"epoch": 1.89,
	"learning_rate": 3.1420844090066315e-06,
	"loss": 1.5581,
	"step": 727
	},
	{
	"epoch": 1.9,
	"learning_rate": 3.1290009092606988e-06,
	"loss": 1.6289,
	"step": 728
	},
	{
	"epoch": 1.9,
	"learning_rate": 3.1159322895052135e-06,
	"loss": 1.5356,
	"step": 729
	},
	{
	"epoch": 1.9,
	"learning_rate": 3.1028786536744495e-06,
	"loss": 1.5453,
	"step": 730
	},
	{
	"epoch": 1.9,
	"eval_loss": 1.554166316986084,
	"eval_runtime": 221.6837,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 730
	},
	{
	"epoch": 1.9,
	"learning_rate": 3.089840105583516e-06,
	"loss": 1.6232,
	"step": 731
	},
	{
	"epoch": 1.91,
	"learning_rate": 3.0768167489275325e-06,
	"loss": 1.6116,
	"step": 732
	},
	{
	"epoch": 1.91,
	"learning_rate": 3.0638086872807987e-06,
	"loss": 1.5252,
	"step": 733
	},
	{
	"epoch": 1.91,
	"learning_rate": 3.050816024095975e-06,
	"loss": 1.6361,
	"step": 734
	},
	{
	"epoch": 1.91,
	"learning_rate": 3.037838862703258e-06,
	"loss": 1.6747,
	"step": 735
	},
	{
	"epoch": 1.92,
	"learning_rate": 3.0248773063095606e-06,
	"loss": 1.5886,
	"step": 736
	},
	{
	"epoch": 1.92,
	"learning_rate": 3.0119314579976854e-06,
	"loss": 1.6214,
	"step": 737
	},
	{
	"epoch": 1.92,
	"learning_rate": 2.9990014207255134e-06,
	"loss": 1.583,
	"step": 738
	},
	{
	"epoch": 1.93,
	"learning_rate": 2.9860872973251815e-06,
	"loss": 1.5699,
	"step": 739
	},
	{
	"epoch": 1.93,
	"learning_rate": 2.9731891905022593e-06,
	"loss": 1.5738,
	"step": 740
	},
	{
	"epoch": 1.93,
	"eval_loss": 1.553594708442688,
	"eval_runtime": 221.5462,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 740
	},
	{
	"epoch": 1.93,
	"learning_rate": 2.960307202834941e-06,
	"loss": 1.632,
	"step": 741
	},
	{
	"epoch": 1.93,
	"learning_rate": 2.947441436773224e-06,
	"loss": 1.6873,
	"step": 742
	},
	{
	"epoch": 1.94,
	"learning_rate": 2.9345919946380985e-06,
	"loss": 1.6665,
	"step": 743
	},
	{
	"epoch": 1.94,
	"learning_rate": 2.9217589786207296e-06,
	"loss": 1.585,
	"step": 744
	},
	{
	"epoch": 1.94,
	"learning_rate": 2.9089424907816433e-06,
	"loss": 1.5554,
	"step": 745
	},
	{
	"epoch": 1.94,
	"learning_rate": 2.896142633049922e-06,
	"loss": 1.69,
	"step": 746
	},
	{
	"epoch": 1.95,
	"learning_rate": 2.8833595072223842e-06,
	"loss": 1.5192,
	"step": 747
	},
	{
	"epoch": 1.95,
	"learning_rate": 2.870593214962787e-06,
	"loss": 1.5848,
	"step": 748
	},
	{
	"epoch": 1.95,
	"learning_rate": 2.8578438578010053e-06,
	"loss": 1.6617,
	"step": 749
	},
	{
	"epoch": 1.95,
	"learning_rate": 2.8451115371322302e-06,
	"loss": 1.6004,
	"step": 750
	},
	{
	"epoch": 1.95,
	"eval_loss": 1.5529882907867432,
	"eval_runtime": 221.6028,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 750
	},
	{
	"epoch": 1.96,
	"learning_rate": 2.8323963542161665e-06,
	"loss": 1.6171,
	"step": 751
	},
	{
	"epoch": 1.96,
	"learning_rate": 2.8196984101762182e-06,
	"loss": 1.6354,
	"step": 752
	},
	{
	"epoch": 1.96,
	"learning_rate": 2.807017805998689e-06,
	"loss": 1.6368,
	"step": 753
	},
	{
	"epoch": 1.96,
	"learning_rate": 2.7943546425319857e-06,
	"loss": 1.5776,
	"step": 754
	},
	{
	"epoch": 1.97,
	"learning_rate": 2.7817090204857997e-06,
	"loss": 1.6396,
	"step": 755
	},
	{
	"epoch": 1.97,
	"learning_rate": 2.7690810404303276e-06,
	"loss": 1.6176,
	"step": 756
	},
	{
	"epoch": 1.97,
	"learning_rate": 2.756470802795449e-06,
	"loss": 1.5653,
	"step": 757
	},
	{
	"epoch": 1.97,
	"learning_rate": 2.743878407869947e-06,
	"loss": 1.6045,
	"step": 758
	},
	{
	"epoch": 1.98,
	"learning_rate": 2.7313039558006952e-06,
	"loss": 1.621,
	"step": 759
	},
	{
	"epoch": 1.98,
	"learning_rate": 2.7187475465918768e-06,
	"loss": 1.6753,
	"step": 760
	},
	{
	"epoch": 1.98,
	"eval_loss": 1.5522700548171997,
	"eval_runtime": 221.543,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 760
	},
	{
	"epoch": 1.98,
	"learning_rate": 2.7062092801041717e-06,
	"loss": 1.5738,
	"step": 761
	},
	{
	"epoch": 1.99,
	"learning_rate": 2.693689256053976e-06,
	"loss": 1.672,
	"step": 762
	},
	{
	"epoch": 1.99,
	"learning_rate": 2.6811875740126063e-06,
	"loss": 1.5926,
	"step": 763
	},
	{
	"epoch": 1.99,
	"learning_rate": 2.6687043334055017e-06,
	"loss": 1.5286,
	"step": 764
	},
	{
	"epoch": 1.99,
	"learning_rate": 2.656239633511437e-06,
	"loss": 1.5802,
	"step": 765
	},
	{
	"epoch": 2.0,
	"learning_rate": 2.643793573461739e-06,
	"loss": 1.6207,
	"step": 766
	},
	{
	"epoch": 2.0,
	"learning_rate": 2.631366252239488e-06,
	"loss": 1.582,
	"step": 767
	},
	{
	"epoch": 2.0,
	"learning_rate": 2.6189577686787317e-06,
	"loss": 1.6199,
	"step": 768
	},
	{
	"epoch": 2.0,
	"learning_rate": 2.6065682214637124e-06,
	"loss": 1.6498,
	"step": 769
	},
	{
	"epoch": 2.01,
	"learning_rate": 2.5941977091280614e-06,
	"loss": 1.6362,
	"step": 770
	},
	{
	"epoch": 2.01,
	"eval_loss": 1.551666498184204,
	"eval_runtime": 221.6901,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 770
	},
	{
	"epoch": 2.01,
	"learning_rate": 2.581846330054034e-06,
	"loss": 1.6039,
	"step": 771
	},
	{
	"epoch": 2.01,
	"learning_rate": 2.5695141824717183e-06,
	"loss": 1.4543,
	"step": 772
	},
	{
	"epoch": 2.01,
	"learning_rate": 2.557201364458252e-06,
	"loss": 1.5505,
	"step": 773
	},
	{
	"epoch": 2.02,
	"learning_rate": 2.5449079739370454e-06,
	"loss": 1.5936,
	"step": 774
	},
	{
	"epoch": 2.02,
	"learning_rate": 2.532634108677006e-06,
	"loss": 1.5993,
	"step": 775
	},
	{
	"epoch": 2.02,
	"learning_rate": 2.5203798662917555e-06,
	"loss": 1.5803,
	"step": 776
	},
	{
	"epoch": 2.02,
	"learning_rate": 2.508145344238854e-06,
	"loss": 1.5481,
	"step": 777
	},
	{
	"epoch": 2.03,
	"learning_rate": 2.4959306398190304e-06,
	"loss": 1.5412,
	"step": 778
	},
	{
	"epoch": 2.03,
	"learning_rate": 2.483735850175402e-06,
	"loss": 1.5478,
	"step": 779
	},
	{
	"epoch": 2.03,
	"learning_rate": 2.471561072292703e-06,
	"loss": 1.5805,
	"step": 780
	},
	{
	"epoch": 2.03,
	"eval_loss": 1.5511072874069214,
	"eval_runtime": 221.428,
	"eval_samples_per_second": 11.679,
	"eval_steps_per_second": 0.732,
	"step": 780
	},
	{
	"epoch": 2.03,
	"learning_rate": 2.4594064029965197e-06,
	"loss": 1.6623,
	"step": 781
	},
	{
	"epoch": 2.04,
	"learning_rate": 2.44727193895251e-06,
	"loss": 1.5497,
	"step": 782
	},
	{
	"epoch": 2.04,
	"learning_rate": 2.4351577766656465e-06,
	"loss": 1.6082,
	"step": 783
	},
	{
	"epoch": 2.04,
	"learning_rate": 2.4230640124794364e-06,
	"loss": 1.6368,
	"step": 784
	},
	{
	"epoch": 2.04,
	"learning_rate": 2.4109907425751616e-06,
	"loss": 1.6386,
	"step": 785
	},
	{
	"epoch": 2.05,
	"learning_rate": 2.3989380629711197e-06,
	"loss": 1.6387,
	"step": 786
	},
	{
	"epoch": 2.05,
	"learning_rate": 2.3869060695218513e-06,
	"loss": 1.5591,
	"step": 787
	},
	{
	"epoch": 2.05,
	"learning_rate": 2.3748948579173792e-06,
	"loss": 1.5081,
	"step": 788
	},
	{
	"epoch": 2.06,
	"learning_rate": 2.362904523682447e-06,
	"loss": 1.5427,
	"step": 789
	},
	{
	"epoch": 2.06,
	"learning_rate": 2.350935162175769e-06,
	"loss": 1.6416,
	"step": 790
	},
	{
	"epoch": 2.06,
	"eval_loss": 1.5508249998092651,
	"eval_runtime": 221.6253,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 790
	},
	{
	"epoch": 2.06,
	"learning_rate": 2.3389868685892573e-06,
	"loss": 1.6477,
	"step": 791
	},
	{
	"epoch": 2.06,
	"learning_rate": 2.3270597379472713e-06,
	"loss": 1.5434,
	"step": 792
	},
	{
	"epoch": 2.07,
	"learning_rate": 2.3151538651058687e-06,
	"loss": 1.6604,
	"step": 793
	},
	{
	"epoch": 2.07,
	"learning_rate": 2.303269344752039e-06,
	"loss": 1.5617,
	"step": 794
	},
	{
	"epoch": 2.07,
	"learning_rate": 2.2914062714029545e-06,
	"loss": 1.6272,
	"step": 795
	},
	{
	"epoch": 2.07,
	"learning_rate": 2.2795647394052284e-06,
	"loss": 1.5248,
	"step": 796
	},
	{
	"epoch": 2.08,
	"learning_rate": 2.267744842934147e-06,
	"loss": 1.7009,
	"step": 797
	},
	{
	"epoch": 2.08,
	"learning_rate": 2.255946675992938e-06,
	"loss": 1.5608,
	"step": 798
	},
	{
	"epoch": 2.08,
	"learning_rate": 2.2441703324120095e-06,
	"loss": 1.6098,
	"step": 799
	},
	{
	"epoch": 2.08,
	"learning_rate": 2.2324159058482086e-06,
	"loss": 1.5755,
	"step": 800
	},
	{
	"epoch": 2.08,
	"eval_loss": 1.5505614280700684,
	"eval_runtime": 221.4712,
	"eval_samples_per_second": 11.676,
	"eval_steps_per_second": 0.731,
	"step": 800
	},
	{
	"epoch": 2.09,
	"learning_rate": 2.2206834897840814e-06,
	"loss": 1.5641,
	"step": 801
	},
	{
	"epoch": 2.09,
	"learning_rate": 2.208973177527125e-06,
	"loss": 1.586,
	"step": 802
	},
	{
	"epoch": 2.09,
	"learning_rate": 2.1972850622090426e-06,
	"loss": 1.7206,
	"step": 803
	},
	{
	"epoch": 2.09,
	"learning_rate": 2.185619236785005e-06,
	"loss": 1.4538,
	"step": 804
	},
	{
	"epoch": 2.1,
	"learning_rate": 2.1739757940329177e-06,
	"loss": 1.6007,
	"step": 805
	},
	{
	"epoch": 2.1,
	"learning_rate": 2.1623548265526734e-06,
	"loss": 1.5956,
	"step": 806
	},
	{
	"epoch": 2.1,
	"learning_rate": 2.1507564267654187e-06,
	"loss": 1.5959,
	"step": 807
	},
	{
	"epoch": 2.1,
	"learning_rate": 2.139180686912825e-06,
	"loss": 1.5359,
	"step": 808
	},
	{
	"epoch": 2.11,
	"learning_rate": 2.127627699056345e-06,
	"loss": 1.6186,
	"step": 809
	},
	{
	"epoch": 2.11,
	"learning_rate": 2.11609755507649e-06,
	"loss": 1.5763,
	"step": 810
	},
	{
	"epoch": 2.11,
	"eval_loss": 1.550114631652832,
	"eval_runtime": 221.6795,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 810
	},
	{
	"epoch": 2.11,
	"learning_rate": 2.1045903466720915e-06,
	"loss": 1.5873,
	"step": 811
	},
	{
	"epoch": 2.12,
	"learning_rate": 2.093106165359574e-06,
	"loss": 1.512,
	"step": 812
	},
	{
	"epoch": 2.12,
	"learning_rate": 2.0816451024722344e-06,
	"loss": 1.5757,
	"step": 813
	},
	{
	"epoch": 2.12,
	"learning_rate": 2.0702072491595023e-06,
	"loss": 1.6093,
	"step": 814
	},
	{
	"epoch": 2.12,
	"learning_rate": 2.0587926963862287e-06,
	"loss": 1.628,
	"step": 815
	},
	{
	"epoch": 2.13,
	"learning_rate": 2.0474015349319505e-06,
	"loss": 1.5597,
	"step": 816
	},
	{
	"epoch": 2.13,
	"learning_rate": 2.03603385539018e-06,
	"loss": 1.628,
	"step": 817
	},
	{
	"epoch": 2.13,
	"learning_rate": 2.0246897481676735e-06,
	"loss": 1.6856,
	"step": 818
	},
	{
	"epoch": 2.13,
	"learning_rate": 2.013369303483719e-06,
	"loss": 1.5875,
	"step": 819
	},
	{
	"epoch": 2.14,
	"learning_rate": 2.0020726113694204e-06,
	"loss": 1.7112,
	"step": 820
	},
	{
	"epoch": 2.14,
	"eval_loss": 1.5496630668640137,
	"eval_runtime": 221.4899,
	"eval_samples_per_second": 11.675,
	"eval_steps_per_second": 0.731,
	"step": 820
	},
	{
	"epoch": 2.14,
	"learning_rate": 1.990799761666975e-06,
	"loss": 1.6253,
	"step": 821
	},
	{
	"epoch": 2.14,
	"learning_rate": 1.97955084402896e-06,
	"loss": 1.6424,
	"step": 822
	},
	{
	"epoch": 2.14,
	"learning_rate": 1.9683259479176294e-06,
	"loss": 1.6307,
	"step": 823
	},
	{
	"epoch": 2.15,
	"learning_rate": 1.9571251626041847e-06,
	"loss": 1.5608,
	"step": 824
	},
	{
	"epoch": 2.15,
	"learning_rate": 1.945948577168086e-06,
	"loss": 1.5342,
	"step": 825
	},
	{
	"epoch": 2.15,
	"learning_rate": 1.9347962804963238e-06,
	"loss": 1.6104,
	"step": 826
	},
	{
	"epoch": 2.15,
	"learning_rate": 1.923668361282723e-06,
	"loss": 1.6282,
	"step": 827
	},
	{
	"epoch": 2.16,
	"learning_rate": 1.9125649080272383e-06,
	"loss": 1.5276,
	"step": 828
	},
	{
	"epoch": 2.16,
	"learning_rate": 1.9014860090352477e-06,
	"loss": 1.5614,
	"step": 829
	},
	{
	"epoch": 2.16,
	"learning_rate": 1.8904317524168458e-06,
	"loss": 1.6533,
	"step": 830
	},
	{
	"epoch": 2.16,
	"eval_loss": 1.5492993593215942,
	"eval_runtime": 221.6236,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 830
	},
	{
	"epoch": 2.16,
	"learning_rate": 1.8794022260861483e-06,
	"loss": 1.5863,
	"step": 831
	},
	{
	"epoch": 2.17,
	"learning_rate": 1.8683975177605968e-06,
	"loss": 1.7112,
	"step": 832
	},
	{
	"epoch": 2.17,
	"learning_rate": 1.8574177149602496e-06,
	"loss": 1.601,
	"step": 833
	},
	{
	"epoch": 2.17,
	"learning_rate": 1.8464629050070941e-06,
	"loss": 1.5975,
	"step": 834
	},
	{
	"epoch": 2.18,
	"learning_rate": 1.835533175024355e-06,
	"loss": 1.623,
	"step": 835
	},
	{
	"epoch": 2.18,
	"learning_rate": 1.8246286119357903e-06,
	"loss": 1.5591,
	"step": 836
	},
	{
	"epoch": 2.18,
	"learning_rate": 1.8137493024650094e-06,
	"loss": 1.6076,
	"step": 837
	},
	{
	"epoch": 2.18,
	"learning_rate": 1.802895333134783e-06,
	"loss": 1.5775,
	"step": 838
	},
	{
	"epoch": 2.19,
	"learning_rate": 1.792066790266348e-06,
	"loss": 1.608,
	"step": 839
	},
	{
	"epoch": 2.19,
	"learning_rate": 1.7812637599787298e-06,
	"loss": 1.6008,
	"step": 840
	},
	{
	"epoch": 2.19,
	"eval_loss": 1.5489221811294556,
	"eval_runtime": 221.4324,
	"eval_samples_per_second": 11.679,
	"eval_steps_per_second": 0.732,
	"step": 840
	},
	{
	"epoch": 2.19,
	"learning_rate": 1.7704863281880496e-06,
	"loss": 1.6018,
	"step": 841
	},
	{
	"epoch": 2.19,
	"learning_rate": 1.759734580606845e-06,
	"loss": 1.6342,
	"step": 842
	},
	{
	"epoch": 2.2,
	"learning_rate": 1.749008602743391e-06,
	"loss": 1.6145,
	"step": 843
	},
	{
	"epoch": 2.2,
	"learning_rate": 1.7383084799010164e-06,
	"loss": 1.6211,
	"step": 844
	},
	{
	"epoch": 2.2,
	"learning_rate": 1.7276342971774225e-06,
	"loss": 1.6228,
	"step": 845
	},
	{
	"epoch": 2.2,
	"learning_rate": 1.7169861394640108e-06,
	"loss": 1.553,
	"step": 846
	},
	{
	"epoch": 2.21,
	"learning_rate": 1.7063640914452113e-06,
	"loss": 1.5691,
	"step": 847
	},
	{
	"epoch": 2.21,
	"learning_rate": 1.6957682375977986e-06,
	"loss": 1.5527,
	"step": 848
	},
	{
	"epoch": 2.21,
	"learning_rate": 1.6851986621902267e-06,
	"loss": 1.5086,
	"step": 849
	},
	{
	"epoch": 2.21,
	"learning_rate": 1.6746554492819638e-06,
	"loss": 1.5731,
	"step": 850
	},
	{
	"epoch": 2.21,
	"eval_loss": 1.5485070943832397,
	"eval_runtime": 221.5833,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 850
	},
	{
	"epoch": 2.22,
	"learning_rate": 1.6641386827228107e-06,
	"loss": 1.5955,
	"step": 851
	},
	{
	"epoch": 2.22,
	"learning_rate": 1.653648446152248e-06,
	"loss": 1.537,
	"step": 852
	},
	{
	"epoch": 2.22,
	"learning_rate": 1.6431848229987586e-06,
	"loss": 1.5893,
	"step": 853
	},
	{
	"epoch": 2.22,
	"learning_rate": 1.6327478964791705e-06,
	"loss": 1.543,
	"step": 854
	},
	{
	"epoch": 2.23,
	"learning_rate": 1.6223377495980003e-06,
	"loss": 1.7022,
	"step": 855
	},
	{
	"epoch": 2.23,
	"learning_rate": 1.61195446514678e-06,
	"loss": 1.563,
	"step": 856
	},
	{
	"epoch": 2.23,
	"learning_rate": 1.601598125703407e-06,
	"loss": 1.4853,
	"step": 857
	},
	{
	"epoch": 2.24,
	"learning_rate": 1.5912688136314886e-06,
	"loss": 1.5955,
	"step": 858
	},
	{
	"epoch": 2.24,
	"learning_rate": 1.5809666110796856e-06,
	"loss": 1.5711,
	"step": 859
	},
	{
	"epoch": 2.24,
	"learning_rate": 1.570691599981053e-06,
	"loss": 1.4975,
	"step": 860
	},
	{
	"epoch": 2.24,
	"eval_loss": 1.5480471849441528,
	"eval_runtime": 221.4835,
	"eval_samples_per_second": 11.676,
	"eval_steps_per_second": 0.731,
	"step": 860
	},
	{
	"epoch": 2.24,
	"learning_rate": 1.5604438620523932e-06,
	"loss": 1.6568,
	"step": 861
	},
	{
	"epoch": 2.25,
	"learning_rate": 1.550223478793612e-06,
	"loss": 1.6204,
	"step": 862
	},
	{
	"epoch": 2.25,
	"learning_rate": 1.5400305314870596e-06,
	"loss": 1.5778,
	"step": 863
	},
	{
	"epoch": 2.25,
	"learning_rate": 1.5298651011968868e-06,
	"loss": 1.5217,
	"step": 864
	},
	{
	"epoch": 2.25,
	"learning_rate": 1.5197272687684106e-06,
	"loss": 1.6217,
	"step": 865
	},
	{
	"epoch": 2.26,
	"learning_rate": 1.5096171148274546e-06,
	"loss": 1.6251,
	"step": 866
	},
	{
	"epoch": 2.26,
	"learning_rate": 1.4995347197797227e-06,
	"loss": 1.6151,
	"step": 867
	},
	{
	"epoch": 2.26,
	"learning_rate": 1.4894801638101502e-06,
	"loss": 1.6027,
	"step": 868
	},
	{
	"epoch": 2.26,
	"learning_rate": 1.4794535268822674e-06,
	"loss": 1.6239,
	"step": 869
	},
	{
	"epoch": 2.27,
	"learning_rate": 1.469454888737571e-06,
	"loss": 1.6158,
	"step": 870
	},
	{
	"epoch": 2.27,
	"eval_loss": 1.5477726459503174,
	"eval_runtime": 221.5786,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 870
	},
	{
	"epoch": 2.27,
	"learning_rate": 1.4594843288948773e-06,
	"loss": 1.5614,
	"step": 871
	},
	{
	"epoch": 2.27,
	"learning_rate": 1.449541926649705e-06,
	"loss": 1.5896,
	"step": 872
	},
	{
	"epoch": 2.27,
	"learning_rate": 1.4396277610736287e-06,
	"loss": 1.5643,
	"step": 873
	},
	{
	"epoch": 2.28,
	"learning_rate": 1.4297419110136628e-06,
	"loss": 1.5279,
	"step": 874
	},
	{
	"epoch": 2.28,
	"learning_rate": 1.419884455091628e-06,
	"loss": 1.5952,
	"step": 875
	},
	{
	"epoch": 2.28,
	"learning_rate": 1.4100554717035242e-06,
	"loss": 1.644,
	"step": 876
	},
	{
	"epoch": 2.28,
	"learning_rate": 1.4002550390189162e-06,
	"loss": 1.6332,
	"step": 877
	},
	{
	"epoch": 2.29,
	"learning_rate": 1.3904832349803011e-06,
	"loss": 1.5595,
	"step": 878
	},
	{
	"epoch": 2.29,
	"learning_rate": 1.380740137302497e-06,
	"loss": 1.6731,
	"step": 879
	},
	{
	"epoch": 2.29,
	"learning_rate": 1.3710258234720191e-06,
	"loss": 1.6063,
	"step": 880
	},
	{
	"epoch": 2.29,
	"eval_loss": 1.5473620891571045,
	"eval_runtime": 221.5086,
	"eval_samples_per_second": 11.674,
	"eval_steps_per_second": 0.731,
	"step": 880
	},
	{
	"epoch": 2.3,
	"learning_rate": 1.361340370746464e-06,
	"loss": 1.6298,
	"step": 881
	},
	{
	"epoch": 2.3,
	"learning_rate": 1.3516838561539019e-06,
	"loss": 1.6664,
	"step": 882
	},
	{
	"epoch": 2.3,
	"learning_rate": 1.342056356492255e-06,
	"loss": 1.5638,
	"step": 883
	},
	{
	"epoch": 2.3,
	"learning_rate": 1.332457948328691e-06,
	"loss": 1.6128,
	"step": 884
	},
	{
	"epoch": 2.31,
	"learning_rate": 1.3228887079990155e-06,
	"loss": 1.6247,
	"step": 885
	},
	{
	"epoch": 2.31,
	"learning_rate": 1.3133487116070643e-06,
	"loss": 1.5627,
	"step": 886
	},
	{
	"epoch": 2.31,
	"learning_rate": 1.3038380350240948e-06,
	"loss": 1.6161,
	"step": 887
	},
	{
	"epoch": 2.31,
	"learning_rate": 1.2943567538881841e-06,
	"loss": 1.6489,
	"step": 888
	},
	{
	"epoch": 2.32,
	"learning_rate": 1.2849049436036325e-06,
	"loss": 1.5597,
	"step": 889
	},
	{
	"epoch": 2.32,
	"learning_rate": 1.2754826793403563e-06,
	"loss": 1.628,
	"step": 890
	},
	{
	"epoch": 2.32,
	"eval_loss": 1.5470210313796997,
	"eval_runtime": 221.6295,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 890
	},
	{
	"epoch": 2.32,
	"learning_rate": 1.2660900360332927e-06,
	"loss": 1.6245,
	"step": 891
	},
	{
	"epoch": 2.32,
	"learning_rate": 1.256727088381809e-06,
	"loss": 1.6468,
	"step": 892
	},
	{
	"epoch": 2.33,
	"learning_rate": 1.2473939108490974e-06,
	"loss": 1.6272,
	"step": 893
	},
	{
	"epoch": 2.33,
	"learning_rate": 1.238090577661596e-06,
	"loss": 1.6395,
	"step": 894
	},
	{
	"epoch": 2.33,
	"learning_rate": 1.2288171628083883e-06,
	"loss": 1.5804,
	"step": 895
	},
	{
	"epoch": 2.33,
	"learning_rate": 1.2195737400406165e-06,
	"loss": 1.6033,
	"step": 896
	},
	{
	"epoch": 2.34,
	"learning_rate": 1.210360382870902e-06,
	"loss": 1.6096,
	"step": 897
	},
	{
	"epoch": 2.34,
	"learning_rate": 1.201177164572752e-06,
	"loss": 1.5839,
	"step": 898
	},
	{
	"epoch": 2.34,
	"learning_rate": 1.192024158179979e-06,
	"loss": 1.5953,
	"step": 899
	},
	{
	"epoch": 2.34,
	"learning_rate": 1.1829014364861252e-06,
	"loss": 1.6177,
	"step": 900
	},
	{
	"epoch": 2.34,
	"eval_loss": 1.546774983406067,
	"eval_runtime": 221.4788,
	"eval_samples_per_second": 11.676,
	"eval_steps_per_second": 0.731,
	"step": 900
	},
	{
	"epoch": 2.35,
	"learning_rate": 1.1738090720438782e-06,
	"loss": 1.5881,
	"step": 901
	},
	{
	"epoch": 2.35,
	"learning_rate": 1.1647471371644943e-06,
	"loss": 1.555,
	"step": 902
	},
	{
	"epoch": 2.35,
	"learning_rate": 1.155715703917224e-06,
	"loss": 1.5393,
	"step": 903
	},
	{
	"epoch": 2.35,
	"learning_rate": 1.1467148441287423e-06,
	"loss": 1.5533,
	"step": 904
	},
	{
	"epoch": 2.36,
	"learning_rate": 1.1377446293825717e-06,
	"loss": 1.603,
	"step": 905
	},
	{
	"epoch": 2.36,
	"learning_rate": 1.1288051310185182e-06,
	"loss": 1.5723,
	"step": 906
	},
	{
	"epoch": 2.36,
	"learning_rate": 1.1198964201320994e-06,
	"loss": 1.6016,
	"step": 907
	},
	{
	"epoch": 2.37,
	"learning_rate": 1.1110185675739804e-06,
	"loss": 1.577,
	"step": 908
	},
	{
	"epoch": 2.37,
	"learning_rate": 1.1021716439494157e-06,
	"loss": 1.667,
	"step": 909
	},
	{
	"epoch": 2.37,
	"learning_rate": 1.093355719617678e-06,
	"loss": 1.5646,
	"step": 910
	},
	{
	"epoch": 2.37,
	"eval_loss": 1.546728491783142,
	"eval_runtime": 221.5999,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 910
	},
	{
	"epoch": 2.37,
	"learning_rate": 1.0845708646915054e-06,
	"loss": 1.6052,
	"step": 911
	},
	{
	"epoch": 2.38,
	"learning_rate": 1.0758171490365444e-06,
	"loss": 1.6043,
	"step": 912
	},
	{
	"epoch": 2.38,
	"learning_rate": 1.0670946422707883e-06,
	"loss": 1.587,
	"step": 913
	},
	{
	"epoch": 2.38,
	"learning_rate": 1.058403413764028e-06,
	"loss": 1.6036,
	"step": 914
	},
	{
	"epoch": 2.38,
	"learning_rate": 1.0497435326373023e-06,
	"loss": 1.4276,
	"step": 915
	},
	{
	"epoch": 2.39,
	"learning_rate": 1.0411150677623438e-06,
	"loss": 1.5751,
	"step": 916
	},
	{
	"epoch": 2.39,
	"learning_rate": 1.0325180877610313e-06,
	"loss": 1.5523,
	"step": 917
	},
	{
	"epoch": 2.39,
	"learning_rate": 1.023952661004845e-06,
	"loss": 1.6882,
	"step": 918
	},
	{
	"epoch": 2.39,
	"learning_rate": 1.0154188556143286e-06,
	"loss": 1.5225,
	"step": 919
	},
	{
	"epoch": 2.4,
	"learning_rate": 1.006916739458535e-06,
	"loss": 1.5272,
	"step": 920
	},
	{
	"epoch": 2.4,
	"eval_loss": 1.5465571880340576,
	"eval_runtime": 221.6882,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 920
	},
	{
	"epoch": 2.4,
	"learning_rate": 9.984463801544992e-07,
	"loss": 1.6817,
	"step": 921
	},
	{
	"epoch": 2.4,
	"learning_rate": 9.900078450666929e-07,
	"loss": 1.5175,
	"step": 922
	},
	{
	"epoch": 2.4,
	"learning_rate": 9.81601201306489e-07,
	"loss": 1.6615,
	"step": 923
	},
	{
	"epoch": 2.41,
	"learning_rate": 9.732265157316344e-07,
	"loss": 1.6376,
	"step": 924
	},
	{
	"epoch": 2.41,
	"learning_rate": 9.648838549457101e-07,
	"loss": 1.5621,
	"step": 925
	},
	{
	"epoch": 2.41,
	"learning_rate": 9.56573285297605e-07,
	"loss": 1.7235,
	"step": 926
	},
	{
	"epoch": 2.41,
	"learning_rate": 9.482948728809909e-07,
	"loss": 1.6235,
	"step": 927
	},
	{
	"epoch": 2.42,
	"learning_rate": 9.400486835337913e-07,
	"loss": 1.68,
	"step": 928
	},
	{
	"epoch": 2.42,
	"learning_rate": 9.318347828376639e-07,
	"loss": 1.6075,
	"step": 929
	},
	{
	"epoch": 2.42,
	"learning_rate": 9.236532361174727e-07,
	"loss": 1.5402,
	"step": 930
	},
	{
	"epoch": 2.42,
	"eval_loss": 1.5463948249816895,
	"eval_runtime": 221.5101,
	"eval_samples_per_second": 11.674,
	"eval_steps_per_second": 0.731,
	"step": 930
	},
	{
	"epoch": 2.43,
	"learning_rate": 9.15504108440774e-07,
	"loss": 1.5344,
	"step": 931
	},
	{
	"epoch": 2.43,
	"learning_rate": 9.073874646172958e-07,
	"loss": 1.6023,
	"step": 932
	},
	{
	"epoch": 2.43,
	"learning_rate": 8.993033691984215e-07,
	"loss": 1.6561,
	"step": 933
	},
	{
	"epoch": 2.43,
	"learning_rate": 8.912518864766817e-07,
	"loss": 1.5915,
	"step": 934
	},
	{
	"epoch": 2.44,
	"learning_rate": 8.832330804852351e-07,
	"loss": 1.5965,
	"step": 935
	},
	{
	"epoch": 2.44,
	"learning_rate": 8.752470149973686e-07,
	"loss": 1.5433,
	"step": 936
	},
	{
	"epoch": 2.44,
	"learning_rate": 8.672937535259812e-07,
	"loss": 1.6243,
	"step": 937
	},
	{
	"epoch": 2.44,
	"learning_rate": 8.593733593230813e-07,
	"loss": 1.5851,
	"step": 938
	},
	{
	"epoch": 2.45,
	"learning_rate": 8.51485895379291e-07,
	"loss": 1.5311,
	"step": 939
	},
	{
	"epoch": 2.45,
	"learning_rate": 8.43631424423334e-07,
	"loss": 1.5815,
	"step": 940
	},
	{
	"epoch": 2.45,
	"eval_loss": 1.5460950136184692,
	"eval_runtime": 221.552,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 940
	},
	{
	"epoch": 2.45,
	"learning_rate": 8.358100089215426e-07,
	"loss": 1.6118,
	"step": 941
	},
	{
	"epoch": 2.45,
	"learning_rate": 8.280217110773625e-07,
	"loss": 1.6851,
	"step": 942
	},
	{
	"epoch": 2.46,
	"learning_rate": 8.202665928308551e-07,
	"loss": 1.5943,
	"step": 943
	},
	{
	"epoch": 2.46,
	"learning_rate": 8.125447158582045e-07,
	"loss": 1.524,
	"step": 944
	},
	{
	"epoch": 2.46,
	"learning_rate": 8.048561415712269e-07,
	"loss": 1.6237,
	"step": 945
	},
	{
	"epoch": 2.46,
	"learning_rate": 7.972009311168883e-07,
	"loss": 1.5489,
	"step": 946
	},
	{
	"epoch": 2.47,
	"learning_rate": 7.895791453768076e-07,
	"loss": 1.5575,
	"step": 947
	},
	{
	"epoch": 2.47,
	"learning_rate": 7.819908449667824e-07,
	"loss": 1.6436,
	"step": 948
	},
	{
	"epoch": 2.47,
	"learning_rate": 7.744360902363002e-07,
	"loss": 1.6002,
	"step": 949
	},
	{
	"epoch": 2.47,
	"learning_rate": 7.669149412680604e-07,
	"loss": 1.4857,
	"step": 950
	},
	{
	"epoch": 2.47,
	"eval_loss": 1.545936107635498,
	"eval_runtime": 221.5545,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 950
	},
	{
	"epoch": 2.48,
	"learning_rate": 7.594274578775007e-07,
	"loss": 1.6765,
	"step": 951
	},
	{
	"epoch": 2.48,
	"learning_rate": 7.519736996123139e-07,
	"loss": 1.5792,
	"step": 952
	},
	{
	"epoch": 2.48,
	"learning_rate": 7.445537257519775e-07,
	"loss": 1.677,
	"step": 953
	},
	{
	"epoch": 2.49,
	"learning_rate": 7.371675953072871e-07,
	"loss": 1.5159,
	"step": 954
	},
	{
	"epoch": 2.49,
	"learning_rate": 7.298153670198799e-07,
	"loss": 1.6549,
	"step": 955
	},
	{
	"epoch": 2.49,
	"learning_rate": 7.224970993617685e-07,
	"loss": 1.619,
	"step": 956
	},
	{
	"epoch": 2.49,
	"learning_rate": 7.152128505348821e-07,
	"loss": 1.6101,
	"step": 957
	},
	{
	"epoch": 2.5,
	"learning_rate": 7.079626784705978e-07,
	"loss": 1.5972,
	"step": 958
	},
	{
	"epoch": 2.5,
	"learning_rate": 7.007466408292801e-07,
	"loss": 1.5516,
	"step": 959
	},
	{
	"epoch": 2.5,
	"learning_rate": 6.935647949998231e-07,
	"loss": 1.5923,
	"step": 960
	},
	{
	"epoch": 2.5,
	"eval_loss": 1.5458210706710815,
	"eval_runtime": 221.6403,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 960
	},
	{
	"epoch": 2.5,
	"learning_rate": 6.864171980991985e-07,
	"loss": 1.5649,
	"step": 961
	},
	{
	"epoch": 2.51,
	"learning_rate": 6.793039069719925e-07,
	"loss": 1.6615,
	"step": 962
	},
	{
	"epoch": 2.51,
	"learning_rate": 6.722249781899631e-07,
	"loss": 1.5616,
	"step": 963
	},
	{
	"epoch": 2.51,
	"learning_rate": 6.651804680515828e-07,
	"loss": 1.5953,
	"step": 964
	},
	{
	"epoch": 2.51,
	"learning_rate": 6.581704325815941e-07,
	"loss": 1.631,
	"step": 965
	},
	{
	"epoch": 2.52,
	"learning_rate": 6.511949275305657e-07,
	"loss": 1.5349,
	"step": 966
	},
	{
	"epoch": 2.52,
	"learning_rate": 6.442540083744453e-07,
	"loss": 1.5914,
	"step": 967
	},
	{
	"epoch": 2.52,
	"learning_rate": 6.37347730314119e-07,
	"loss": 1.5806,
	"step": 968
	},
	{
	"epoch": 2.52,
	"learning_rate": 6.304761482749777e-07,
	"loss": 1.6937,
	"step": 969
	},
	{
	"epoch": 2.53,
	"learning_rate": 6.23639316906472e-07,
	"loss": 1.6167,
	"step": 970
	},
	{
	"epoch": 2.53,
	"eval_loss": 1.5456454753875732,
	"eval_runtime": 221.6009,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 970
	},
	{
	"epoch": 2.53,
	"learning_rate": 6.168372905816822e-07,
	"loss": 1.5585,
	"step": 971
	},
	{
	"epoch": 2.53,
	"learning_rate": 6.100701233968876e-07,
	"loss": 1.6041,
	"step": 972
	},
	{
	"epoch": 2.53,
	"learning_rate": 6.033378691711333e-07,
	"loss": 1.6218,
	"step": 973
	},
	{
	"epoch": 2.54,
	"learning_rate": 5.966405814457999e-07,
	"loss": 1.619,
	"step": 974
	},
	{
	"epoch": 2.54,
	"learning_rate": 5.899783134841846e-07,
	"loss": 1.48,
	"step": 975
	},
	{
	"epoch": 2.54,
	"learning_rate": 5.833511182710716e-07,
	"loss": 1.6509,
	"step": 976
	},
	{
	"epoch": 2.55,
	"learning_rate": 5.76759048512312e-07,
	"loss": 1.5868,
	"step": 977
	},
	{
	"epoch": 2.55,
	"learning_rate": 5.702021566344079e-07,
	"loss": 1.5942,
	"step": 978
	},
	{
	"epoch": 2.55,
	"learning_rate": 5.636804947840907e-07,
	"loss": 1.6148,
	"step": 979
	},
	{
	"epoch": 2.55,
	"learning_rate": 5.571941148279081e-07,
	"loss": 1.7214,
	"step": 980
	},
	{
	"epoch": 2.55,
	"eval_loss": 1.5455540418624878,
	"eval_runtime": 221.5314,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 980
	},
	{
	"epoch": 2.56,
	"learning_rate": 5.507430683518161e-07,
	"loss": 1.5196,
	"step": 981
	},
	{
	"epoch": 2.56,
	"learning_rate": 5.443274066607607e-07,
	"loss": 1.5658,
	"step": 982
	},
	{
	"epoch": 2.56,
	"learning_rate": 5.379471807782743e-07,
	"loss": 1.6647,
	"step": 983
	},
	{
	"epoch": 2.56,
	"learning_rate": 5.316024414460729e-07,
	"loss": 1.6552,
	"step": 984
	},
	{
	"epoch": 2.57,
	"learning_rate": 5.252932391236443e-07,
	"loss": 1.6959,
	"step": 985
	},
	{
	"epoch": 2.57,
	"learning_rate": 5.19019623987857e-07,
	"loss": 1.6183,
	"step": 986
	},
	{
	"epoch": 2.57,
	"learning_rate": 5.127816459325508e-07,
	"loss": 1.5426,
	"step": 987
	},
	{
	"epoch": 2.57,
	"learning_rate": 5.065793545681491e-07,
	"loss": 1.4803,
	"step": 988
	},
	{
	"epoch": 2.58,
	"learning_rate": 5.00412799221257e-07,
	"loss": 1.663,
	"step": 989
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.942820289342759e-07,
	"loss": 1.5467,
	"step": 990
	},
	{
	"epoch": 2.58,
	"eval_loss": 1.545507788658142,
	"eval_runtime": 221.6193,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 990
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.881870924650062e-07,
	"loss": 1.5791,
	"step": 991
	},
	{
	"epoch": 2.58,
	"learning_rate": 4.821280382862647e-07,
	"loss": 1.5733,
	"step": 992
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.76104914585499e-07,
	"loss": 1.6028,
	"step": 993
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.70117769264401e-07,
	"loss": 1.5632,
	"step": 994
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.641666499385278e-07,
	"loss": 1.6126,
	"step": 995
	},
	{
	"epoch": 2.59,
	"learning_rate": 4.582516039369245e-07,
	"loss": 1.5865,
	"step": 996
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.523726783017457e-07,
	"loss": 1.676,
	"step": 997
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.4652991978787975e-07,
	"loss": 1.4612,
	"step": 998
	},
	{
	"epoch": 2.6,
	"learning_rate": 4.407233748625839e-07,
	"loss": 1.6977,
	"step": 999
	},
	{
	"epoch": 2.61,
	"learning_rate": 4.3495308970510463e-07,
	"loss": 1.6455,
	"step": 1000
	},
	{
	"epoch": 2.61,
	"eval_loss": 1.5453382730484009,
	"eval_runtime": 221.6265,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 1000
	},
	{
	"epoch": 2.61,
	"learning_rate": 4.2921911020631926e-07,
	"loss": 1.6091,
	"step": 1001
	},
	{
	"epoch": 2.61,
	"learning_rate": 4.235214819683681e-07,
	"loss": 1.644,
	"step": 1002
	},
	{
	"epoch": 2.61,
	"learning_rate": 4.1786025030428776e-07,
	"loss": 1.5587,
	"step": 1003
	},
	{
	"epoch": 2.62,
	"learning_rate": 4.1223546023765604e-07,
	"loss": 1.61,
	"step": 1004
	},
	{
	"epoch": 2.62,
	"learning_rate": 4.0664715650223343e-07,
	"loss": 1.583,
	"step": 1005
	},
	{
	"epoch": 2.62,
	"learning_rate": 4.010953835416037e-07,
	"loss": 1.5307,
	"step": 1006
	},
	{
	"epoch": 2.62,
	"learning_rate": 3.9558018550882204e-07,
	"loss": 1.5984,
	"step": 1007
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.901016062660673e-07,
	"loss": 1.6404,
	"step": 1008
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.846596893842891e-07,
	"loss": 1.5449,
	"step": 1009
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.792544781428609e-07,
	"loss": 1.6137,
	"step": 1010
	},
	{
	"epoch": 2.63,
	"eval_loss": 1.5452983379364014,
	"eval_runtime": 221.4626,
	"eval_samples_per_second": 11.677,
	"eval_steps_per_second": 0.732,
	"step": 1010
	},
	{
	"epoch": 2.63,
	"learning_rate": 3.7388601552924066e-07,
	"loss": 1.5802,
	"step": 1011
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.6855434423862356e-07,
	"loss": 1.5109,
	"step": 1012
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.6325950667360443e-07,
	"loss": 1.5823,
	"step": 1013
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.5800154494384176e-07,
	"loss": 1.5131,
	"step": 1014
	},
	{
	"epoch": 2.64,
	"learning_rate": 3.5278050086572313e-07,
	"loss": 1.6175,
	"step": 1015
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.4759641596202766e-07,
	"loss": 1.6387,
	"step": 1016
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.4244933146160395e-07,
	"loss": 1.6567,
	"step": 1017
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.3733928829903396e-07,
	"loss": 1.5627,
	"step": 1018
	},
	{
	"epoch": 2.65,
	"learning_rate": 3.322663271143112e-07,
	"loss": 1.7035,
	"step": 1019
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.2723048825252177e-07,
	"loss": 1.6104,
	"step": 1020
	},
	{
	"epoch": 2.66,
	"eval_loss": 1.5452524423599243,
	"eval_runtime": 221.6335,
	"eval_samples_per_second": 11.668,
	"eval_steps_per_second": 0.731,
	"step": 1020
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.222318117635143e-07,
	"loss": 1.5946,
	"step": 1021
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.172703374015884e-07,
	"loss": 1.6396,
	"step": 1022
	},
	{
	"epoch": 2.66,
	"learning_rate": 3.12346104625178e-07,
	"loss": 1.5768,
	"step": 1023
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.0745915259653314e-07,
	"loss": 1.6198,
	"step": 1024
	},
	{
	"epoch": 2.67,
	"learning_rate": 3.026095201814122e-07,
	"loss": 1.4602,
	"step": 1025
	},
	{
	"epoch": 2.67,
	"learning_rate": 2.9779724594877377e-07,
	"loss": 1.6006,
	"step": 1026
	},
	{
	"epoch": 2.68,
	"learning_rate": 2.9302236817046636e-07,
	"loss": 1.6586,
	"step": 1027
	},
	{
	"epoch": 2.68,
	"learning_rate": 2.8828492482092576e-07,
	"loss": 1.6442,
	"step": 1028
	},
	{
	"epoch": 2.68,
	"learning_rate": 2.8358495357687366e-07,
	"loss": 1.4891,
	"step": 1029
	},
	{
	"epoch": 2.68,
	"learning_rate": 2.78922491817018e-07,
	"loss": 1.6756,
	"step": 1030
	},
	{
	"epoch": 2.68,
	"eval_loss": 1.545109748840332,
	"eval_runtime": 221.6902,
	"eval_samples_per_second": 11.665,
	"eval_steps_per_second": 0.731,
	"step": 1030
	},
	{
	"epoch": 2.69,
	"learning_rate": 2.7429757662175316e-07,
	"loss": 1.6241,
	"step": 1031
	},
	{
	"epoch": 2.69,
	"learning_rate": 2.6971024477287e-07,
	"loss": 1.5359,
	"step": 1032
	},
	{
	"epoch": 2.69,
	"learning_rate": 2.651605327532569e-07,
	"loss": 1.5156,
	"step": 1033
	},
	{
	"epoch": 2.69,
	"learning_rate": 2.60648476746615e-07,
	"loss": 1.5417,
	"step": 1034
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.561741126371692e-07,
	"loss": 1.5033,
	"step": 1035
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.5173747600937994e-07,
	"loss": 1.58,
	"step": 1036
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.4733860214766315e-07,
	"loss": 1.5353,
	"step": 1037
	},
	{
	"epoch": 2.7,
	"learning_rate": 2.429775260361106e-07,
	"loss": 1.5453,
	"step": 1038
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.3865428235820775e-07,
	"loss": 1.6029,
	"step": 1039
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.3436890549655922e-07,
	"loss": 1.5818,
	"step": 1040
	},
	{
	"epoch": 2.71,
	"eval_loss": 1.5450130701065063,
	"eval_runtime": 221.5386,
	"eval_samples_per_second": 11.673,
	"eval_steps_per_second": 0.731,
	"step": 1040
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.301214295326193e-07,
	"loss": 1.5887,
	"step": 1041
	},
	{
	"epoch": 2.71,
	"learning_rate": 2.2591188824641508e-07,
	"loss": 1.6142,
	"step": 1042
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.217403151162817e-07,
	"loss": 1.5788,
	"step": 1043
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.176067433185952e-07,
	"loss": 1.6359,
	"step": 1044
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.1351120572750737e-07,
	"loss": 1.5598,
	"step": 1045
	},
	{
	"epoch": 2.72,
	"learning_rate": 2.0945373491468468e-07,
	"loss": 1.5478,
	"step": 1046
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.0543436314905242e-07,
	"loss": 1.6472,
	"step": 1047
	},
	{
	"epoch": 2.73,
	"learning_rate": 2.0145312239653325e-07,
	"loss": 1.5053,
	"step": 1048
	},
	{
	"epoch": 2.73,
	"learning_rate": 1.975100443197958e-07,
	"loss": 1.6325,
	"step": 1049
	},
	{
	"epoch": 2.74,
	"learning_rate": 1.9360516027800258e-07,
	"loss": 1.5829,
	"step": 1050
	},
	{
	"epoch": 2.74,
	"eval_loss": 1.5450440645217896,
	"eval_runtime": 221.5885,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 1050
	},
	{
	"epoch": 2.74,
	"learning_rate": 1.8973850132655957e-07,
	"loss": 1.5113,
	"step": 1051
	},
	{
	"epoch": 2.74,
	"learning_rate": 1.8591009821687044e-07,
	"loss": 1.6341,
	"step": 1052
	},
	{
	"epoch": 2.74,
	"learning_rate": 1.8211998139609222e-07,
	"loss": 1.7143,
	"step": 1053
	},
	{
	"epoch": 2.75,
	"learning_rate": 1.78368181006891e-07,
	"loss": 1.5249,
	"step": 1054
	},
	{
	"epoch": 2.75,
	"learning_rate": 1.7465472688720397e-07,
	"loss": 1.6237,
	"step": 1055
	},
	{
	"epoch": 2.75,
	"learning_rate": 1.7097964857000326e-07,
	"loss": 1.6128,
	"step": 1056
	},
	{
	"epoch": 2.75,
	"learning_rate": 1.6734297528305687e-07,
	"loss": 1.5549,
	"step": 1057
	},
	{
	"epoch": 2.76,
	"learning_rate": 1.6374473594870155e-07,
	"loss": 1.5354,
	"step": 1058
	},
	{
	"epoch": 2.76,
	"learning_rate": 1.6018495918360965e-07,
	"loss": 1.6438,
	"step": 1059
	},
	{
	"epoch": 2.76,
	"learning_rate": 1.5666367329856046e-07,
	"loss": 1.5753,
	"step": 1060
	},
	{
	"epoch": 2.76,
	"eval_loss": 1.5450438261032104,
	"eval_runtime": 221.7053,
	"eval_samples_per_second": 11.664,
	"eval_steps_per_second": 0.731,
	"step": 1060
	},
	{
	"epoch": 2.76,
	"learning_rate": 1.5318090629821757e-07,
	"loss": 1.5775,
	"step": 1061
	},
	{
	"epoch": 2.77,
	"learning_rate": 1.4973668588090572e-07,
	"loss": 1.5399,
	"step": 1062
	},
	{
	"epoch": 2.77,
	"learning_rate": 1.4633103943839045e-07,
	"loss": 1.6173,
	"step": 1063
	},
	{
	"epoch": 2.77,
	"learning_rate": 1.429639940556571e-07,
	"loss": 1.6818,
	"step": 1064
	},
	{
	"epoch": 2.77,
	"learning_rate": 1.396355765107016e-07,
	"loss": 1.5952,
	"step": 1065
	},
	{
	"epoch": 2.78,
	"learning_rate": 1.363458132743123e-07,
	"loss": 1.6716,
	"step": 1066
	},
	{
	"epoch": 2.78,
	"learning_rate": 1.3309473050986067e-07,
	"loss": 1.7006,
	"step": 1067
	},
	{
	"epoch": 2.78,
	"learning_rate": 1.298823540730948e-07,
	"loss": 1.6409,
	"step": 1068
	},
	{
	"epoch": 2.78,
	"learning_rate": 1.2670870951193293e-07,
	"loss": 1.4846,
	"step": 1069
	},
	{
	"epoch": 2.79,
	"learning_rate": 1.2357382206625802e-07,
	"loss": 1.6484,
	"step": 1070
	},
	{
	"epoch": 2.79,
	"eval_loss": 1.5450248718261719,
	"eval_runtime": 221.5954,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 1070
	},
	{
	"epoch": 2.79,
	"learning_rate": 1.2047771666772124e-07,
	"loss": 1.5518,
	"step": 1071
	},
	{
	"epoch": 2.79,
	"learning_rate": 1.1742041793954162e-07,
	"loss": 1.5571,
	"step": 1072
	},
	{
	"epoch": 2.8,
	"learning_rate": 1.1440195019630784e-07,
	"loss": 1.6202,
	"step": 1073
	},
	{
	"epoch": 2.8,
	"learning_rate": 1.114223374437895e-07,
	"loss": 1.6521,
	"step": 1074
	},
	{
	"epoch": 2.8,
	"learning_rate": 1.0848160337874225e-07,
	"loss": 1.596,
	"step": 1075
	},
	{
	"epoch": 2.8,
	"learning_rate": 1.0557977138872133e-07,
	"loss": 1.5768,
	"step": 1076
	},
	{
	"epoch": 2.81,
	"learning_rate": 1.0271686455189556e-07,
	"loss": 1.5506,
	"step": 1077
	},
	{
	"epoch": 2.81,
	"learning_rate": 9.989290563686305e-08,
	"loss": 1.6101,
	"step": 1078
	},
	{
	"epoch": 2.81,
	"learning_rate": 9.710791710247025e-08,
	"loss": 1.5509,
	"step": 1079
	},
	{
	"epoch": 2.81,
	"learning_rate": 9.436192109763376e-08,
	"loss": 1.6765,
	"step": 1080
	},
	{
	"epoch": 2.81,
	"eval_loss": 1.5449930429458618,
	"eval_runtime": 221.5701,
	"eval_samples_per_second": 11.671,
	"eval_steps_per_second": 0.731,
	"step": 1080
	},
	{
	"epoch": 2.82,
	"learning_rate": 9.165493946116432e-08,
	"loss": 1.5969,
	"step": 1081
	},
	{
	"epoch": 2.82,
	"learning_rate": 8.898699372159147e-08,
	"loss": 1.4659,
	"step": 1082
	},
	{
	"epoch": 2.82,
	"learning_rate": 8.635810509699583e-08,
	"loss": 1.5853,
	"step": 1083
	},
	{
	"epoch": 2.82,
	"learning_rate": 8.376829449483537e-08,
	"loss": 1.5234,
	"step": 1084
	},
	{
	"epoch": 2.83,
	"learning_rate": 8.121758251178391e-08,
	"loss": 1.6246,
	"step": 1085
	},
	{
	"epoch": 2.83,
	"learning_rate": 7.870598943356622e-08,
	"loss": 1.5908,
	"step": 1086
	},
	{
	"epoch": 2.83,
	"learning_rate": 7.62335352347926e-08,
	"loss": 1.5624,
	"step": 1087
	},
	{
	"epoch": 2.83,
	"learning_rate": 7.380023957880511e-08,
	"loss": 1.6097,
	"step": 1088
	},
	{
	"epoch": 2.84,
	"learning_rate": 7.140612181752049e-08,
	"loss": 1.53,
	"step": 1089
	},
	{
	"epoch": 2.84,
	"learning_rate": 6.905120099127249e-08,
	"loss": 1.623,
	"step": 1090
	},
	{
	"epoch": 2.84,
	"eval_loss": 1.5449092388153076,
	"eval_runtime": 221.6089,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 1090
	},
	{
	"epoch": 2.84,
	"learning_rate": 6.673549582866368e-08,
	"loss": 1.5162,
	"step": 1091
	},
	{
	"epoch": 2.84,
	"learning_rate": 6.44590247464183e-08,
	"loss": 1.6031,
	"step": 1092
	},
	{
	"epoch": 2.85,
	"learning_rate": 6.222180584923021e-08,
	"loss": 1.6486,
	"step": 1093
	},
	{
	"epoch": 2.85,
	"learning_rate": 6.002385692962242e-08,
	"loss": 1.4915,
	"step": 1094
	},
	{
	"epoch": 2.85,
	"learning_rate": 5.7865195467807775e-08,
	"loss": 1.4412,
	"step": 1095
	},
	{
	"epoch": 2.86,
	"learning_rate": 5.5745838631544036e-08,
	"loss": 1.5536,
	"step": 1096
	},
	{
	"epoch": 2.86,
	"learning_rate": 5.3665803276002906e-08,
	"loss": 1.5892,
	"step": 1097
	},
	{
	"epoch": 2.86,
	"learning_rate": 5.162510594363235e-08,
	"loss": 1.6356,
	"step": 1098
	},
	{
	"epoch": 2.86,
	"learning_rate": 4.9623762864027815e-08,
	"loss": 1.6506,
	"step": 1099
	},
	{
	"epoch": 2.87,
	"learning_rate": 4.7661789953799553e-08,
	"loss": 1.6901,
	"step": 1100
	},
	{
	"epoch": 2.87,
	"eval_loss": 1.5449464321136475,
	"eval_runtime": 221.5857,
	"eval_samples_per_second": 11.67,
	"eval_steps_per_second": 0.731,
	"step": 1100
	},
	{
	"epoch": 2.87,
	"learning_rate": 4.573920281645161e-08,
	"loss": 1.6219,
	"step": 1101
	},
	{
	"epoch": 2.87,
	"learning_rate": 4.385601674225082e-08,
	"loss": 1.6609,
	"step": 1102
	},
	{
	"epoch": 2.87,
	"learning_rate": 4.2012246708110774e-08,
	"loss": 1.6263,
	"step": 1103
	},
	{
	"epoch": 2.88,
	"learning_rate": 4.020790737746971e-08,
	"loss": 1.5852,
	"step": 1104
	},
	{
	"epoch": 2.88,
	"learning_rate": 3.844301310017673e-08,
	"loss": 1.5669,
	"step": 1105
	},
	{
	"epoch": 2.88,
	"learning_rate": 3.6717577912372406e-08,
	"loss": 1.4975,
	"step": 1106
	},
	{
	"epoch": 2.88,
	"learning_rate": 3.503161553638445e-08,
	"loss": 1.5413,
	"step": 1107
	},
	{
	"epoch": 2.89,
	"learning_rate": 3.338513938061172e-08,
	"loss": 1.5464,
	"step": 1108
	},
	{
	"epoch": 2.89,
	"learning_rate": 3.177816253942145e-08,
	"loss": 1.5708,
	"step": 1109
	},
	{
	"epoch": 2.89,
	"learning_rate": 3.021069779304498e-08,
	"loss": 1.6601,
	"step": 1110
	},
	{
	"epoch": 2.89,
	"eval_loss": 1.5448739528656006,
	"eval_runtime": 221.6432,
	"eval_samples_per_second": 11.667,
	"eval_steps_per_second": 0.731,
	"step": 1110
	},
	{
	"epoch": 2.89,
	"learning_rate": 2.868275760747441e-08,
	"loss": 1.5739,
	"step": 1111
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.7194354134363886e-08,
	"loss": 1.5899,
	"step": 1112
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.5745499210936274e-08,
	"loss": 1.5463,
	"step": 1113
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.4336204359882153e-08,
	"loss": 1.5981,
	"step": 1114
	},
	{
	"epoch": 2.9,
	"learning_rate": 2.2966480789275438e-08,
	"loss": 1.5515,
	"step": 1115
	},
	{
	"epoch": 2.91,
	"learning_rate": 2.1636339392479553e-08,
	"loss": 1.6135,
	"step": 1116
	},
	{
	"epoch": 2.91,
	"learning_rate": 2.0345790748062532e-08,
	"loss": 1.5344,
	"step": 1117
	},
	{
	"epoch": 2.91,
	"learning_rate": 1.9094845119712603e-08,
	"loss": 1.6426,
	"step": 1118
	},
	{
	"epoch": 2.92,
	"learning_rate": 1.788351245615716e-08,
	"loss": 1.5534,
	"step": 1119
	},
	{
	"epoch": 2.92,
	"learning_rate": 1.6711802391081723e-08,
	"loss": 1.6763,
	"step": 1120
	},
	{
	"epoch": 2.92,
	"eval_loss": 1.5449295043945312,
	"eval_runtime": 221.4937,
	"eval_samples_per_second": 11.675,
	"eval_steps_per_second": 0.731,
	"step": 1120
	},
	{
	"epoch": 2.92,
	"learning_rate": 1.557972424305665e-08,
	"loss": 1.6222,
	"step": 1121
	},
	{
	"epoch": 2.92,
	"learning_rate": 1.4487287015458872e-08,
	"loss": 1.5905,
	"step": 1122
	},
	{
	"epoch": 2.93,
	"learning_rate": 1.3434499396404176e-08,
	"loss": 1.6102,
	"step": 1123
	},
	{
	"epoch": 2.93,
	"learning_rate": 1.2421369758675027e-08,
	"loss": 1.6438,
	"step": 1124
	},
	{
	"epoch": 2.93,
	"learning_rate": 1.1447906159656741e-08,
	"loss": 1.5647,
	"step": 1125
	},
	{
	"epoch": 2.93,
	"learning_rate": 1.0514116341271419e-08,
	"loss": 1.6007,
	"step": 1126
	},
	{
	"epoch": 2.94,
	"learning_rate": 9.620007729916337e-09,
	"loss": 1.6131,
	"step": 1127
	},
	{
	"epoch": 2.94,
	"learning_rate": 8.765587436406765e-09,
	"loss": 1.6681,
	"step": 1128
	},
	{
	"epoch": 2.94,
	"learning_rate": 7.95086225591657e-09,
	"loss": 1.6304,
	"step": 1129
	},
	{
	"epoch": 2.94,
	"learning_rate": 7.175838667927149e-09,
	"loss": 1.6203,
	"step": 1130
	},
	{
	"epoch": 2.94,
	"eval_loss": 1.5448760986328125,
	"eval_runtime": 221.5511,
	"eval_samples_per_second": 11.672,
	"eval_steps_per_second": 0.731,
	"step": 1130
	},
	{
	"epoch": 2.95,
	"learning_rate": 6.440522836174135e-09,
	"loss": 1.5979,
	"step": 1131
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.744920608598547e-09,
	"loss": 1.4959,
	"step": 1132
	},
	{
	"epoch": 2.95,
	"learning_rate": 5.089037517300721e-09,
	"loss": 1.553,
	"step": 1133
	},
	{
	"epoch": 2.95,
	"learning_rate": 4.472878778495892e-09,
	"loss": 1.5942,
	"step": 1134
	},
	{
	"epoch": 2.96,
	"learning_rate": 3.896449292473125e-09,
	"loss": 1.6051,
	"step": 1135
	},
	{
	"epoch": 2.96,
	"learning_rate": 3.359753643555341e-09,
	"loss": 1.6249,
	"step": 1136
	},
	{
	"epoch": 2.96,
	"learning_rate": 2.862796100065457e-09,
	"loss": 1.6316,
	"step": 1137
	},
	{
	"epoch": 2.96,
	"learning_rate": 2.4055806142880835e-09,
	"loss": 1.6181,
	"step": 1138
	},
	{
	"epoch": 2.97,
	"learning_rate": 1.988110822443434e-09,
	"loss": 1.5719,
	"step": 1139
	},
	{
	"epoch": 2.97,
	"learning_rate": 1.6103900446534648e-09,
	"loss": 1.5113,
	"step": 1140
	},
	{
	"epoch": 2.97,
	"eval_loss": 1.5448263883590698,
	"eval_runtime": 221.6166,
	"eval_samples_per_second": 11.669,
	"eval_steps_per_second": 0.731,
	"step": 1140
	},
	{
	"epoch": 2.97,
	"learning_rate": 1.2724212849180019e-09,
	"loss": 1.6375,
	"step": 1141
	},
	{
	"epoch": 2.97,
	"learning_rate": 9.742072310908735e-10,
	"loss": 1.6044,
	"step": 1142
	},
	{
	"epoch": 2.98,
	"learning_rate": 7.157502548588158e-10,
	"loss": 1.5811,
	"step": 1143
	},
	{
	"epoch": 2.98,
	"learning_rate": 4.97052411720933e-10,
	"loss": 1.587,
	"step": 1144
	},
	{
	"epoch": 2.98,
	"learning_rate": 3.181154409725995e-10,
	"loss": 1.702,
	"step": 1145
	},
	{
	"epoch": 2.99,
	"learning_rate": 1.7894076569435759e-10,
	"loss": 1.5643,
	"step": 1146
	},
	{
	"epoch": 2.99,
	"learning_rate": 7.952949273748456e-11,
	"loss": 1.4459,
	"step": 1147
	},
	{
	"epoch": 2.99,
	"learning_rate": 1.9882412715110932e-11,
	"loss": 1.4922,
	"step": 1148
	},
	{
	"epoch": 2.99,
	"learning_rate": 0.0,
	"loss": 1.5717,
	"step": 1149
	},
	{
	"epoch": 2.99,
	"step": 1149,
	"total_flos": 2.7036241629701734e+18,
	"train_loss": 1.6580357963464072,
	"train_runtime": 61956.043,
	"train_samples_per_second": 2.379,
	"train_steps_per_second": 0.019
	}
	],
	"max_steps": 1149,
	"num_train_epochs": 3,
	"total_flos": 2.7036241629701734e+18,
	"trial_name": null,
	"trial_params": null
	}