Model save

Browse files

Files changed (5) hide show

README.md +99 -0
adapter_model.safetensors +1 -1
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +2417 -0

README.md ADDED Viewed

	@@ -0,0 +1,99 @@

+---
+base_model: meta-llama/Meta-Llama-3.1-8B-Instruct
+library_name: peft
+license: llama3.1
+tags:
+- trl
+- sft
+- generated_from_trainer
+model-index:
+- name: Llama-31-8B_task-1_180-samples_config-3_full
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Llama-31-8B_task-1_180-samples_config-3_full
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.9400
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 150
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 2.4542        | 1.0   | 17   | 2.4259          |
+| 2.4022        | 2.0   | 34   | 2.3882          |
+| 2.3317        | 3.0   | 51   | 2.3140          |
+| 2.2607        | 4.0   | 68   | 2.2050          |
+| 2.1352        | 5.0   | 85   | 2.0643          |
+| 1.9456        | 6.0   | 102  | 1.8885          |
+| 1.7528        | 7.0   | 119  | 1.7025          |
+| 1.4935        | 8.0   | 136  | 1.4674          |
+| 1.2733        | 9.0   | 153  | 1.2421          |
+| 1.1154        | 10.0  | 170  | 1.1134          |
+| 1.1202        | 11.0  | 187  | 1.0689          |
+| 0.9449        | 12.0  | 204  | 1.0450          |
+| 0.9973        | 13.0  | 221  | 1.0253          |
+| 1.0562        | 14.0  | 238  | 1.0091          |
+| 0.9947        | 15.0  | 255  | 0.9928          |
+| 1.0096        | 16.0  | 272  | 0.9804          |
+| 0.9222        | 17.0  | 289  | 0.9692          |
+| 0.8838        | 18.0  | 306  | 0.9603          |
+| 0.8942        | 19.0  | 323  | 0.9511          |
+| 0.9058        | 20.0  | 340  | 0.9432          |
+| 0.8837        | 21.0  | 357  | 0.9354          |
+| 0.795         | 22.0  | 374  | 0.9315          |
+| 0.8395        | 23.0  | 391  | 0.9243          |
+| 0.8308        | 24.0  | 408  | 0.9169          |
+| 0.7863        | 25.0  | 425  | 0.9138          |
+| 0.7468        | 26.0  | 442  | 0.9068          |
+| 0.7658        | 27.0  | 459  | 0.9008          |
+| 0.7128        | 28.0  | 476  | 0.8992          |
+| 0.6474        | 29.0  | 493  | 0.9064          |
+| 0.6387        | 30.0  | 510  | 0.9089          |
+| 0.6846        | 31.0  | 527  | 0.9096          |
+| 0.6424        | 32.0  | 544  | 0.9173          |
+| 0.6598        | 33.0  | 561  | 0.9238          |
+| 0.6634        | 34.0  | 578  | 0.9290          |
+| 0.5893        | 35.0  | 595  | 0.9400          |
+### Framework versions
+- PEFT 0.12.0
+- Transformers 4.44.0
+- Pytorch 2.1.2+cu121
+- Datasets 2.20.0
+- Tokenizers 0.19.1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:beeef946c1131a7c9ccdca29cae429c194bc319cce456247a84a615aba242965
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:01ec7a291e7130b2a2288f91a204e2717a24f2776c6c423148f280acd735d755
 size 167832240

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 35.0,
+    "total_flos": 7.576813686279373e+16,
+    "train_loss": 1.1527870081052058,
+    "train_runtime": 5617.142,
+    "train_samples": 136,
+    "train_samples_per_second": 3.632,
+    "train_steps_per_second": 0.454
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 35.0,
+    "total_flos": 7.576813686279373e+16,
+    "train_loss": 1.1527870081052058,
+    "train_runtime": 5617.142,
+    "train_samples": 136,
+    "train_samples_per_second": 3.632,
+    "train_steps_per_second": 0.454
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2417 @@

+{
+  "best_metric": 0.8991827368736267,
+  "best_model_checkpoint": "data/Llama-31-8B_task-1_180-samples_config-3_full/checkpoint-476",
+  "epoch": 35.0,
+  "eval_steps": 500,
+  "global_step": 595,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.058823529411764705,
+      "grad_norm": 1.858755111694336,
+      "learning_rate": 3.9215686274509804e-08,
+      "loss": 2.4463,
+      "step": 1
+    },
+    {
+      "epoch": 0.11764705882352941,
+      "grad_norm": 1.8338021039962769,
+      "learning_rate": 7.843137254901961e-08,
+      "loss": 2.4612,
+      "step": 2
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 1.7695642709732056,
+      "learning_rate": 1.5686274509803921e-07,
+      "loss": 2.3799,
+      "step": 4
+    },
+    {
+      "epoch": 0.35294117647058826,
+      "grad_norm": 1.7253705263137817,
+      "learning_rate": 2.3529411764705883e-07,
+      "loss": 2.4519,
+      "step": 6
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 2.068340301513672,
+      "learning_rate": 3.1372549019607843e-07,
+      "loss": 2.4357,
+      "step": 8
+    },
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 1.71905517578125,
+      "learning_rate": 3.921568627450981e-07,
+      "loss": 2.4114,
+      "step": 10
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 1.9960722923278809,
+      "learning_rate": 4.7058823529411767e-07,
+      "loss": 2.5452,
+      "step": 12
+    },
+    {
+      "epoch": 0.8235294117647058,
+      "grad_norm": 1.846751093864441,
+      "learning_rate": 5.490196078431373e-07,
+      "loss": 2.4838,
+      "step": 14
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 1.7892955541610718,
+      "learning_rate": 6.274509803921569e-07,
+      "loss": 2.4542,
+      "step": 16
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.4258534908294678,
+      "eval_runtime": 14.49,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 17
+    },
+    {
+      "epoch": 1.0588235294117647,
+      "grad_norm": 1.7462923526763916,
+      "learning_rate": 7.058823529411766e-07,
+      "loss": 2.4066,
+      "step": 18
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 1.6423271894454956,
+      "learning_rate": 7.843137254901962e-07,
+      "loss": 2.4084,
+      "step": 20
+    },
+    {
+      "epoch": 1.2941176470588236,
+      "grad_norm": 1.6562241315841675,
+      "learning_rate": 8.627450980392157e-07,
+      "loss": 2.4685,
+      "step": 22
+    },
+    {
+      "epoch": 1.4117647058823528,
+      "grad_norm": 1.5601104497909546,
+      "learning_rate": 9.411764705882353e-07,
+      "loss": 2.3986,
+      "step": 24
+    },
+    {
+      "epoch": 1.5294117647058822,
+      "grad_norm": 1.689158320426941,
+      "learning_rate": 1.019607843137255e-06,
+      "loss": 2.512,
+      "step": 26
+    },
+    {
+      "epoch": 1.6470588235294117,
+      "grad_norm": 1.7012155055999756,
+      "learning_rate": 1.0980392156862745e-06,
+      "loss": 2.434,
+      "step": 28
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 1.533742070198059,
+      "learning_rate": 1.1764705882352942e-06,
+      "loss": 2.4145,
+      "step": 30
+    },
+    {
+      "epoch": 1.8823529411764706,
+      "grad_norm": 1.6920032501220703,
+      "learning_rate": 1.2549019607843137e-06,
+      "loss": 2.4019,
+      "step": 32
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.5552300214767456,
+      "learning_rate": 1.3333333333333334e-06,
+      "loss": 2.4022,
+      "step": 34
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.3881916999816895,
+      "eval_runtime": 14.4942,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 34
+    },
+    {
+      "epoch": 2.1176470588235294,
+      "grad_norm": 1.5124330520629883,
+      "learning_rate": 1.4117647058823531e-06,
+      "loss": 2.3961,
+      "step": 36
+    },
+    {
+      "epoch": 2.235294117647059,
+      "grad_norm": 1.4209071397781372,
+      "learning_rate": 1.4901960784313726e-06,
+      "loss": 2.4343,
+      "step": 38
+    },
+    {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 1.6290644407272339,
+      "learning_rate": 1.5686274509803923e-06,
+      "loss": 2.3528,
+      "step": 40
+    },
+    {
+      "epoch": 2.4705882352941178,
+      "grad_norm": 1.5042191743850708,
+      "learning_rate": 1.6470588235294118e-06,
+      "loss": 2.3555,
+      "step": 42
+    },
+    {
+      "epoch": 2.588235294117647,
+      "grad_norm": 1.6211644411087036,
+      "learning_rate": 1.7254901960784315e-06,
+      "loss": 2.3944,
+      "step": 44
+    },
+    {
+      "epoch": 2.7058823529411766,
+      "grad_norm": 1.5416394472122192,
+      "learning_rate": 1.8039215686274512e-06,
+      "loss": 2.3917,
+      "step": 46
+    },
+    {
+      "epoch": 2.8235294117647056,
+      "grad_norm": 1.697242259979248,
+      "learning_rate": 1.8823529411764707e-06,
+      "loss": 2.3457,
+      "step": 48
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 1.8130015134811401,
+      "learning_rate": 1.96078431372549e-06,
+      "loss": 2.3317,
+      "step": 50
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.314044952392578,
+      "eval_runtime": 14.4935,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 51
+    },
+    {
+      "epoch": 3.0588235294117645,
+      "grad_norm": 1.830562710762024,
+      "learning_rate": 2.03921568627451e-06,
+      "loss": 2.2938,
+      "step": 52
+    },
+    {
+      "epoch": 3.176470588235294,
+      "grad_norm": 1.8372972011566162,
+      "learning_rate": 2.1176470588235296e-06,
+      "loss": 2.3541,
+      "step": 54
+    },
+    {
+      "epoch": 3.2941176470588234,
+      "grad_norm": 1.8857609033584595,
+      "learning_rate": 2.196078431372549e-06,
+      "loss": 2.2888,
+      "step": 56
+    },
+    {
+      "epoch": 3.411764705882353,
+      "grad_norm": 1.7633429765701294,
+      "learning_rate": 2.274509803921569e-06,
+      "loss": 2.2616,
+      "step": 58
+    },
+    {
+      "epoch": 3.5294117647058822,
+      "grad_norm": 1.5656747817993164,
+      "learning_rate": 2.3529411764705885e-06,
+      "loss": 2.2801,
+      "step": 60
+    },
+    {
+      "epoch": 3.6470588235294117,
+      "grad_norm": 1.6285021305084229,
+      "learning_rate": 2.431372549019608e-06,
+      "loss": 2.3144,
+      "step": 62
+    },
+    {
+      "epoch": 3.764705882352941,
+      "grad_norm": 1.531112790107727,
+      "learning_rate": 2.5098039215686274e-06,
+      "loss": 2.2294,
+      "step": 64
+    },
+    {
+      "epoch": 3.8823529411764706,
+      "grad_norm": 1.527350664138794,
+      "learning_rate": 2.5882352941176473e-06,
+      "loss": 2.1976,
+      "step": 66
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 2.009220838546753,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 2.2607,
+      "step": 68
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.2050342559814453,
+      "eval_runtime": 14.4977,
+      "eval_samples_per_second": 2.483,
+      "eval_steps_per_second": 2.483,
+      "step": 68
+    },
+    {
+      "epoch": 4.117647058823529,
+      "grad_norm": 2.025496006011963,
+      "learning_rate": 2.7450980392156867e-06,
+      "loss": 2.1834,
+      "step": 70
+    },
+    {
+      "epoch": 4.235294117647059,
+      "grad_norm": 1.714682698249817,
+      "learning_rate": 2.8235294117647062e-06,
+      "loss": 2.1785,
+      "step": 72
+    },
+    {
+      "epoch": 4.352941176470588,
+      "grad_norm": 1.1758134365081787,
+      "learning_rate": 2.901960784313726e-06,
+      "loss": 2.2148,
+      "step": 74
+    },
+    {
+      "epoch": 4.470588235294118,
+      "grad_norm": 1.2965394258499146,
+      "learning_rate": 2.980392156862745e-06,
+      "loss": 2.1797,
+      "step": 76
+    },
+    {
+      "epoch": 4.588235294117647,
+      "grad_norm": 1.1413812637329102,
+      "learning_rate": 3.058823529411765e-06,
+      "loss": 2.1743,
+      "step": 78
+    },
+    {
+      "epoch": 4.705882352941177,
+      "grad_norm": 1.0636754035949707,
+      "learning_rate": 3.1372549019607846e-06,
+      "loss": 2.0559,
+      "step": 80
+    },
+    {
+      "epoch": 4.823529411764706,
+      "grad_norm": 1.1126306056976318,
+      "learning_rate": 3.2156862745098045e-06,
+      "loss": 2.1355,
+      "step": 82
+    },
+    {
+      "epoch": 4.9411764705882355,
+      "grad_norm": 1.1904844045639038,
+      "learning_rate": 3.2941176470588236e-06,
+      "loss": 2.1352,
+      "step": 84
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 2.0643370151519775,
+      "eval_runtime": 14.5066,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 85
+    },
+    {
+      "epoch": 5.0588235294117645,
+      "grad_norm": 1.0779309272766113,
+      "learning_rate": 3.3725490196078435e-06,
+      "loss": 2.0248,
+      "step": 86
+    },
+    {
+      "epoch": 5.176470588235294,
+      "grad_norm": 1.107112169265747,
+      "learning_rate": 3.450980392156863e-06,
+      "loss": 2.1049,
+      "step": 88
+    },
+    {
+      "epoch": 5.294117647058823,
+      "grad_norm": 0.9876514077186584,
+      "learning_rate": 3.529411764705883e-06,
+      "loss": 2.0005,
+      "step": 90
+    },
+    {
+      "epoch": 5.411764705882353,
+      "grad_norm": 1.073117733001709,
+      "learning_rate": 3.6078431372549024e-06,
+      "loss": 1.9499,
+      "step": 92
+    },
+    {
+      "epoch": 5.529411764705882,
+      "grad_norm": 1.0594408512115479,
+      "learning_rate": 3.6862745098039223e-06,
+      "loss": 1.9899,
+      "step": 94
+    },
+    {
+      "epoch": 5.647058823529412,
+      "grad_norm": 1.0870219469070435,
+      "learning_rate": 3.7647058823529414e-06,
+      "loss": 1.9852,
+      "step": 96
+    },
+    {
+      "epoch": 5.764705882352941,
+      "grad_norm": 0.9945081472396851,
+      "learning_rate": 3.843137254901962e-06,
+      "loss": 1.9981,
+      "step": 98
+    },
+    {
+      "epoch": 5.882352941176471,
+      "grad_norm": 0.8944886326789856,
+      "learning_rate": 3.92156862745098e-06,
+      "loss": 1.9126,
+      "step": 100
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.8814469575881958,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.9456,
+      "step": 102
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.888541340827942,
+      "eval_runtime": 14.5125,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 102
+    },
+    {
+      "epoch": 6.117647058823529,
+      "grad_norm": 0.8919170498847961,
+      "learning_rate": 4.07843137254902e-06,
+      "loss": 1.8157,
+      "step": 104
+    },
+    {
+      "epoch": 6.235294117647059,
+      "grad_norm": 0.8234829902648926,
+      "learning_rate": 4.15686274509804e-06,
+      "loss": 1.9187,
+      "step": 106
+    },
+    {
+      "epoch": 6.352941176470588,
+      "grad_norm": 0.8216582536697388,
+      "learning_rate": 4.235294117647059e-06,
+      "loss": 1.8121,
+      "step": 108
+    },
+    {
+      "epoch": 6.470588235294118,
+      "grad_norm": 0.8760618567466736,
+      "learning_rate": 4.313725490196079e-06,
+      "loss": 1.8794,
+      "step": 110
+    },
+    {
+      "epoch": 6.588235294117647,
+      "grad_norm": 0.90522301197052,
+      "learning_rate": 4.392156862745098e-06,
+      "loss": 1.7899,
+      "step": 112
+    },
+    {
+      "epoch": 6.705882352941177,
+      "grad_norm": 0.8919849395751953,
+      "learning_rate": 4.4705882352941184e-06,
+      "loss": 1.7929,
+      "step": 114
+    },
+    {
+      "epoch": 6.823529411764706,
+      "grad_norm": 1.0193332433700562,
+      "learning_rate": 4.549019607843138e-06,
+      "loss": 1.7409,
+      "step": 116
+    },
+    {
+      "epoch": 6.9411764705882355,
+      "grad_norm": 0.9497600793838501,
+      "learning_rate": 4.627450980392157e-06,
+      "loss": 1.7528,
+      "step": 118
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.7024633884429932,
+      "eval_runtime": 14.5072,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 119
+    },
+    {
+      "epoch": 7.0588235294117645,
+      "grad_norm": 0.9311454892158508,
+      "learning_rate": 4.705882352941177e-06,
+      "loss": 1.7333,
+      "step": 120
+    },
+    {
+      "epoch": 7.176470588235294,
+      "grad_norm": 1.0313152074813843,
+      "learning_rate": 4.784313725490196e-06,
+      "loss": 1.7217,
+      "step": 122
+    },
+    {
+      "epoch": 7.294117647058823,
+      "grad_norm": 1.1278079748153687,
+      "learning_rate": 4.862745098039216e-06,
+      "loss": 1.6414,
+      "step": 124
+    },
+    {
+      "epoch": 7.411764705882353,
+      "grad_norm": 0.9751306176185608,
+      "learning_rate": 4.941176470588236e-06,
+      "loss": 1.6047,
+      "step": 126
+    },
+    {
+      "epoch": 7.529411764705882,
+      "grad_norm": 0.9619643688201904,
+      "learning_rate": 5.019607843137255e-06,
+      "loss": 1.5733,
+      "step": 128
+    },
+    {
+      "epoch": 7.647058823529412,
+      "grad_norm": 0.9418209195137024,
+      "learning_rate": 5.098039215686274e-06,
+      "loss": 1.5655,
+      "step": 130
+    },
+    {
+      "epoch": 7.764705882352941,
+      "grad_norm": 0.986770749092102,
+      "learning_rate": 5.176470588235295e-06,
+      "loss": 1.5325,
+      "step": 132
+    },
+    {
+      "epoch": 7.882352941176471,
+      "grad_norm": 0.8657909631729126,
+      "learning_rate": 5.254901960784314e-06,
+      "loss": 1.5042,
+      "step": 134
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.8987972736358643,
+      "learning_rate": 5.333333333333334e-06,
+      "loss": 1.4935,
+      "step": 136
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.467383861541748,
+      "eval_runtime": 14.5108,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 136
+    },
+    {
+      "epoch": 8.117647058823529,
+      "grad_norm": 0.8275275826454163,
+      "learning_rate": 5.411764705882353e-06,
+      "loss": 1.4215,
+      "step": 138
+    },
+    {
+      "epoch": 8.235294117647058,
+      "grad_norm": 0.9540057182312012,
+      "learning_rate": 5.4901960784313735e-06,
+      "loss": 1.4698,
+      "step": 140
+    },
+    {
+      "epoch": 8.352941176470589,
+      "grad_norm": 0.9684072136878967,
+      "learning_rate": 5.568627450980393e-06,
+      "loss": 1.4359,
+      "step": 142
+    },
+    {
+      "epoch": 8.470588235294118,
+      "grad_norm": 0.9229031801223755,
+      "learning_rate": 5.6470588235294125e-06,
+      "loss": 1.3994,
+      "step": 144
+    },
+    {
+      "epoch": 8.588235294117647,
+      "grad_norm": 0.8458110094070435,
+      "learning_rate": 5.725490196078431e-06,
+      "loss": 1.3096,
+      "step": 146
+    },
+    {
+      "epoch": 8.705882352941176,
+      "grad_norm": 0.9069352746009827,
+      "learning_rate": 5.803921568627452e-06,
+      "loss": 1.2347,
+      "step": 148
+    },
+    {
+      "epoch": 8.823529411764707,
+      "grad_norm": 0.8469833731651306,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 1.332,
+      "step": 150
+    },
+    {
+      "epoch": 8.941176470588236,
+      "grad_norm": 0.8933460116386414,
+      "learning_rate": 5.96078431372549e-06,
+      "loss": 1.2733,
+      "step": 152
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.2421215772628784,
+      "eval_runtime": 14.5471,
+      "eval_samples_per_second": 2.475,
+      "eval_steps_per_second": 2.475,
+      "step": 153
+    },
+    {
+      "epoch": 9.058823529411764,
+      "grad_norm": 0.8019786477088928,
+      "learning_rate": 6.03921568627451e-06,
+      "loss": 1.1929,
+      "step": 154
+    },
+    {
+      "epoch": 9.176470588235293,
+      "grad_norm": 0.7300643920898438,
+      "learning_rate": 6.11764705882353e-06,
+      "loss": 1.2392,
+      "step": 156
+    },
+    {
+      "epoch": 9.294117647058824,
+      "grad_norm": 0.809948742389679,
+      "learning_rate": 6.19607843137255e-06,
+      "loss": 1.1685,
+      "step": 158
+    },
+    {
+      "epoch": 9.411764705882353,
+      "grad_norm": 0.6852974891662598,
+      "learning_rate": 6.274509803921569e-06,
+      "loss": 1.168,
+      "step": 160
+    },
+    {
+      "epoch": 9.529411764705882,
+      "grad_norm": 0.709697961807251,
+      "learning_rate": 6.352941176470589e-06,
+      "loss": 1.1333,
+      "step": 162
+    },
+    {
+      "epoch": 9.647058823529411,
+      "grad_norm": 0.7923583388328552,
+      "learning_rate": 6.431372549019609e-06,
+      "loss": 1.1475,
+      "step": 164
+    },
+    {
+      "epoch": 9.764705882352942,
+      "grad_norm": 0.7233794927597046,
+      "learning_rate": 6.5098039215686285e-06,
+      "loss": 1.1775,
+      "step": 166
+    },
+    {
+      "epoch": 9.882352941176471,
+      "grad_norm": 0.7074316740036011,
+      "learning_rate": 6.588235294117647e-06,
+      "loss": 1.1279,
+      "step": 168
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.6581458449363708,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.1154,
+      "step": 170
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.1133772134780884,
+      "eval_runtime": 14.5122,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 170
+    },
+    {
+      "epoch": 10.117647058823529,
+      "grad_norm": 0.6955820918083191,
+      "learning_rate": 6.745098039215687e-06,
+      "loss": 1.0662,
+      "step": 172
+    },
+    {
+      "epoch": 10.235294117647058,
+      "grad_norm": 0.5870165824890137,
+      "learning_rate": 6.8235294117647065e-06,
+      "loss": 1.0219,
+      "step": 174
+    },
+    {
+      "epoch": 10.352941176470589,
+      "grad_norm": 0.6177704334259033,
+      "learning_rate": 6.901960784313726e-06,
+      "loss": 1.0537,
+      "step": 176
+    },
+    {
+      "epoch": 10.470588235294118,
+      "grad_norm": 0.6390775442123413,
+      "learning_rate": 6.9803921568627454e-06,
+      "loss": 1.1001,
+      "step": 178
+    },
+    {
+      "epoch": 10.588235294117647,
+      "grad_norm": 0.4973801374435425,
+      "learning_rate": 7.058823529411766e-06,
+      "loss": 1.0578,
+      "step": 180
+    },
+    {
+      "epoch": 10.705882352941176,
+      "grad_norm": 0.518943190574646,
+      "learning_rate": 7.137254901960785e-06,
+      "loss": 1.1447,
+      "step": 182
+    },
+    {
+      "epoch": 10.823529411764707,
+      "grad_norm": 0.6414965987205505,
+      "learning_rate": 7.215686274509805e-06,
+      "loss": 1.0872,
+      "step": 184
+    },
+    {
+      "epoch": 10.941176470588236,
+      "grad_norm": 0.508786678314209,
+      "learning_rate": 7.294117647058823e-06,
+      "loss": 1.1202,
+      "step": 186
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 1.0689375400543213,
+      "eval_runtime": 14.505,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 187
+    },
+    {
+      "epoch": 11.058823529411764,
+      "grad_norm": 0.48530295491218567,
+      "learning_rate": 7.372549019607845e-06,
+      "loss": 1.0999,
+      "step": 188
+    },
+    {
+      "epoch": 11.176470588235293,
+      "grad_norm": 0.5133592486381531,
+      "learning_rate": 7.450980392156863e-06,
+      "loss": 1.0864,
+      "step": 190
+    },
+    {
+      "epoch": 11.294117647058824,
+      "grad_norm": 0.49263596534729004,
+      "learning_rate": 7.529411764705883e-06,
+      "loss": 1.0535,
+      "step": 192
+    },
+    {
+      "epoch": 11.411764705882353,
+      "grad_norm": 0.4610048532485962,
+      "learning_rate": 7.607843137254902e-06,
+      "loss": 1.0462,
+      "step": 194
+    },
+    {
+      "epoch": 11.529411764705882,
+      "grad_norm": 0.5121297836303711,
+      "learning_rate": 7.686274509803923e-06,
+      "loss": 1.0862,
+      "step": 196
+    },
+    {
+      "epoch": 11.647058823529411,
+      "grad_norm": 0.5441015958786011,
+      "learning_rate": 7.764705882352941e-06,
+      "loss": 1.0068,
+      "step": 198
+    },
+    {
+      "epoch": 11.764705882352942,
+      "grad_norm": 0.5135095119476318,
+      "learning_rate": 7.84313725490196e-06,
+      "loss": 1.0548,
+      "step": 200
+    },
+    {
+      "epoch": 11.882352941176471,
+      "grad_norm": 0.4792177081108093,
+      "learning_rate": 7.92156862745098e-06,
+      "loss": 0.9711,
+      "step": 202
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.45314979553222656,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.9449,
+      "step": 204
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.0450434684753418,
+      "eval_runtime": 14.5066,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 204
+    },
+    {
+      "epoch": 12.117647058823529,
+      "grad_norm": 0.5007625818252563,
+      "learning_rate": 8.07843137254902e-06,
+      "loss": 1.0258,
+      "step": 206
+    },
+    {
+      "epoch": 12.235294117647058,
+      "grad_norm": 0.5184361934661865,
+      "learning_rate": 8.15686274509804e-06,
+      "loss": 1.0845,
+      "step": 208
+    },
+    {
+      "epoch": 12.352941176470589,
+      "grad_norm": 0.44266751408576965,
+      "learning_rate": 8.23529411764706e-06,
+      "loss": 1.0005,
+      "step": 210
+    },
+    {
+      "epoch": 12.470588235294118,
+      "grad_norm": 0.5165805220603943,
+      "learning_rate": 8.31372549019608e-06,
+      "loss": 1.0242,
+      "step": 212
+    },
+    {
+      "epoch": 12.588235294117647,
+      "grad_norm": 0.5037981867790222,
+      "learning_rate": 8.392156862745099e-06,
+      "loss": 0.9857,
+      "step": 214
+    },
+    {
+      "epoch": 12.705882352941176,
+      "grad_norm": 0.5604737997055054,
+      "learning_rate": 8.470588235294118e-06,
+      "loss": 1.0086,
+      "step": 216
+    },
+    {
+      "epoch": 12.823529411764707,
+      "grad_norm": 0.6752682328224182,
+      "learning_rate": 8.549019607843138e-06,
+      "loss": 1.0277,
+      "step": 218
+    },
+    {
+      "epoch": 12.941176470588236,
+      "grad_norm": 0.5517321228981018,
+      "learning_rate": 8.627450980392157e-06,
+      "loss": 0.9973,
+      "step": 220
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 1.0252662897109985,
+      "eval_runtime": 14.5028,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 221
+    },
+    {
+      "epoch": 13.058823529411764,
+      "grad_norm": 0.6104453802108765,
+      "learning_rate": 8.705882352941177e-06,
+      "loss": 0.9835,
+      "step": 222
+    },
+    {
+      "epoch": 13.176470588235293,
+      "grad_norm": 0.47119539976119995,
+      "learning_rate": 8.784313725490196e-06,
+      "loss": 1.0076,
+      "step": 224
+    },
+    {
+      "epoch": 13.294117647058824,
+      "grad_norm": 0.4882214367389679,
+      "learning_rate": 8.862745098039216e-06,
+      "loss": 0.9808,
+      "step": 226
+    },
+    {
+      "epoch": 13.411764705882353,
+      "grad_norm": 0.7123433947563171,
+      "learning_rate": 8.941176470588237e-06,
+      "loss": 0.9676,
+      "step": 228
+    },
+    {
+      "epoch": 13.529411764705882,
+      "grad_norm": 0.5918748378753662,
+      "learning_rate": 9.019607843137256e-06,
+      "loss": 1.0068,
+      "step": 230
+    },
+    {
+      "epoch": 13.647058823529411,
+      "grad_norm": 0.5302197337150574,
+      "learning_rate": 9.098039215686276e-06,
+      "loss": 0.9573,
+      "step": 232
+    },
+    {
+      "epoch": 13.764705882352942,
+      "grad_norm": 0.5693833827972412,
+      "learning_rate": 9.176470588235294e-06,
+      "loss": 0.9914,
+      "step": 234
+    },
+    {
+      "epoch": 13.882352941176471,
+      "grad_norm": 0.490904837846756,
+      "learning_rate": 9.254901960784315e-06,
+      "loss": 1.032,
+      "step": 236
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.5507678389549255,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 1.0562,
+      "step": 238
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.0090599060058594,
+      "eval_runtime": 14.506,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 238
+    },
+    {
+      "epoch": 14.117647058823529,
+      "grad_norm": 0.6389086246490479,
+      "learning_rate": 9.411764705882354e-06,
+      "loss": 0.9853,
+      "step": 240
+    },
+    {
+      "epoch": 14.235294117647058,
+      "grad_norm": 0.5049781203269958,
+      "learning_rate": 9.490196078431373e-06,
+      "loss": 1.0067,
+      "step": 242
+    },
+    {
+      "epoch": 14.352941176470589,
+      "grad_norm": 0.7086266279220581,
+      "learning_rate": 9.568627450980393e-06,
+      "loss": 0.9387,
+      "step": 244
+    },
+    {
+      "epoch": 14.470588235294118,
+      "grad_norm": 0.5628448128700256,
+      "learning_rate": 9.647058823529412e-06,
+      "loss": 1.0068,
+      "step": 246
+    },
+    {
+      "epoch": 14.588235294117647,
+      "grad_norm": 0.6910731196403503,
+      "learning_rate": 9.725490196078432e-06,
+      "loss": 1.0007,
+      "step": 248
+    },
+    {
+      "epoch": 14.705882352941176,
+      "grad_norm": 0.6134346127510071,
+      "learning_rate": 9.803921568627451e-06,
+      "loss": 0.9456,
+      "step": 250
+    },
+    {
+      "epoch": 14.823529411764707,
+      "grad_norm": 0.6747128963470459,
+      "learning_rate": 9.882352941176472e-06,
+      "loss": 0.9506,
+      "step": 252
+    },
+    {
+      "epoch": 14.941176470588236,
+      "grad_norm": 0.5889897346496582,
+      "learning_rate": 9.960784313725492e-06,
+      "loss": 0.9947,
+      "step": 254
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.9928128719329834,
+      "eval_runtime": 14.4936,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 255
+    },
+    {
+      "epoch": 15.058823529411764,
+      "grad_norm": 0.5487807989120483,
+      "learning_rate": 9.999995315380667e-06,
+      "loss": 0.9354,
+      "step": 256
+    },
+    {
+      "epoch": 15.176470588235293,
+      "grad_norm": 0.6178866624832153,
+      "learning_rate": 9.99995783847866e-06,
+      "loss": 0.9655,
+      "step": 258
+    },
+    {
+      "epoch": 15.294117647058824,
+      "grad_norm": 0.5696916580200195,
+      "learning_rate": 9.999882884955554e-06,
+      "loss": 0.9468,
+      "step": 260
+    },
+    {
+      "epoch": 15.411764705882353,
+      "grad_norm": 0.6009863615036011,
+      "learning_rate": 9.99977045537315e-06,
+      "loss": 0.9852,
+      "step": 262
+    },
+    {
+      "epoch": 15.529411764705882,
+      "grad_norm": 0.6040264368057251,
+      "learning_rate": 9.999620550574155e-06,
+      "loss": 0.9553,
+      "step": 264
+    },
+    {
+      "epoch": 15.647058823529411,
+      "grad_norm": 0.6321269869804382,
+      "learning_rate": 9.999433171682158e-06,
+      "loss": 0.9419,
+      "step": 266
+    },
+    {
+      "epoch": 15.764705882352942,
+      "grad_norm": 0.6273146867752075,
+      "learning_rate": 9.999208320101643e-06,
+      "loss": 0.9715,
+      "step": 268
+    },
+    {
+      "epoch": 15.882352941176471,
+      "grad_norm": 0.6734570860862732,
+      "learning_rate": 9.998945997517957e-06,
+      "loss": 0.918,
+      "step": 270
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.7102432250976562,
+      "learning_rate": 9.99864620589731e-06,
+      "loss": 1.0096,
+      "step": 272
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.9803969264030457,
+      "eval_runtime": 14.5083,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 272
+    },
+    {
+      "epoch": 16.11764705882353,
+      "grad_norm": 0.6154859066009521,
+      "learning_rate": 9.998308947486753e-06,
+      "loss": 0.8898,
+      "step": 274
+    },
+    {
+      "epoch": 16.235294117647058,
+      "grad_norm": 0.6435267329216003,
+      "learning_rate": 9.997934224814173e-06,
+      "loss": 0.9271,
+      "step": 276
+    },
+    {
+      "epoch": 16.352941176470587,
+      "grad_norm": 0.7057787775993347,
+      "learning_rate": 9.997522040688258e-06,
+      "loss": 1.0,
+      "step": 278
+    },
+    {
+      "epoch": 16.470588235294116,
+      "grad_norm": 0.6257563233375549,
+      "learning_rate": 9.997072398198492e-06,
+      "loss": 0.973,
+      "step": 280
+    },
+    {
+      "epoch": 16.58823529411765,
+      "grad_norm": 0.6798095703125,
+      "learning_rate": 9.996585300715117e-06,
+      "loss": 0.9625,
+      "step": 282
+    },
+    {
+      "epoch": 16.705882352941178,
+      "grad_norm": 0.7027468681335449,
+      "learning_rate": 9.996060751889114e-06,
+      "loss": 0.9529,
+      "step": 284
+    },
+    {
+      "epoch": 16.823529411764707,
+      "grad_norm": 0.6210634708404541,
+      "learning_rate": 9.995498755652186e-06,
+      "loss": 0.8968,
+      "step": 286
+    },
+    {
+      "epoch": 16.941176470588236,
+      "grad_norm": 0.6995490789413452,
+      "learning_rate": 9.994899316216709e-06,
+      "loss": 0.9222,
+      "step": 288
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.9691942930221558,
+      "eval_runtime": 14.5044,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 289
+    },
+    {
+      "epoch": 17.058823529411764,
+      "grad_norm": 0.6503624320030212,
+      "learning_rate": 9.994262438075713e-06,
+      "loss": 0.9487,
+      "step": 290
+    },
+    {
+      "epoch": 17.176470588235293,
+      "grad_norm": 0.6647483706474304,
+      "learning_rate": 9.993588126002848e-06,
+      "loss": 0.9163,
+      "step": 292
+    },
+    {
+      "epoch": 17.294117647058822,
+      "grad_norm": 0.7215944528579712,
+      "learning_rate": 9.992876385052346e-06,
+      "loss": 0.8638,
+      "step": 294
+    },
+    {
+      "epoch": 17.41176470588235,
+      "grad_norm": 0.7234969139099121,
+      "learning_rate": 9.992127220558976e-06,
+      "loss": 0.9037,
+      "step": 296
+    },
+    {
+      "epoch": 17.529411764705884,
+      "grad_norm": 0.7656229138374329,
+      "learning_rate": 9.991340638138022e-06,
+      "loss": 0.9633,
+      "step": 298
+    },
+    {
+      "epoch": 17.647058823529413,
+      "grad_norm": 0.6850258111953735,
+      "learning_rate": 9.990516643685222e-06,
+      "loss": 0.9458,
+      "step": 300
+    },
+    {
+      "epoch": 17.764705882352942,
+      "grad_norm": 0.7975447773933411,
+      "learning_rate": 9.98965524337673e-06,
+      "loss": 0.9801,
+      "step": 302
+    },
+    {
+      "epoch": 17.88235294117647,
+      "grad_norm": 0.7075424790382385,
+      "learning_rate": 9.988756443669081e-06,
+      "loss": 0.888,
+      "step": 304
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.85096675157547,
+      "learning_rate": 9.987820251299121e-06,
+      "loss": 0.8838,
+      "step": 306
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.9602956771850586,
+      "eval_runtime": 14.5129,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 306
+    },
+    {
+      "epoch": 18.11764705882353,
+      "grad_norm": 0.698685884475708,
+      "learning_rate": 9.98684667328398e-06,
+      "loss": 0.8838,
+      "step": 308
+    },
+    {
+      "epoch": 18.235294117647058,
+      "grad_norm": 0.7671274542808533,
+      "learning_rate": 9.985835716921e-06,
+      "loss": 0.9012,
+      "step": 310
+    },
+    {
+      "epoch": 18.352941176470587,
+      "grad_norm": 0.8342521786689758,
+      "learning_rate": 9.984787389787689e-06,
+      "loss": 0.9412,
+      "step": 312
+    },
+    {
+      "epoch": 18.470588235294116,
+      "grad_norm": 0.6886960864067078,
+      "learning_rate": 9.983701699741668e-06,
+      "loss": 0.8946,
+      "step": 314
+    },
+    {
+      "epoch": 18.58823529411765,
+      "grad_norm": 0.7856888175010681,
+      "learning_rate": 9.982578654920601e-06,
+      "loss": 0.9169,
+      "step": 316
+    },
+    {
+      "epoch": 18.705882352941178,
+      "grad_norm": 0.7338317036628723,
+      "learning_rate": 9.981418263742148e-06,
+      "loss": 0.8584,
+      "step": 318
+    },
+    {
+      "epoch": 18.823529411764707,
+      "grad_norm": 0.727165699005127,
+      "learning_rate": 9.980220534903889e-06,
+      "loss": 0.9385,
+      "step": 320
+    },
+    {
+      "epoch": 18.941176470588236,
+      "grad_norm": 0.777866542339325,
+      "learning_rate": 9.978985477383264e-06,
+      "loss": 0.8942,
+      "step": 322
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.951096773147583,
+      "eval_runtime": 14.4924,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 323
+    },
+    {
+      "epoch": 19.058823529411764,
+      "grad_norm": 0.6845978498458862,
+      "learning_rate": 9.97771310043751e-06,
+      "loss": 0.8752,
+      "step": 324
+    },
+    {
+      "epoch": 19.176470588235293,
+      "grad_norm": 0.7632399201393127,
+      "learning_rate": 9.97640341360358e-06,
+      "loss": 0.9616,
+      "step": 326
+    },
+    {
+      "epoch": 19.294117647058822,
+      "grad_norm": 0.7852567434310913,
+      "learning_rate": 9.975056426698094e-06,
+      "loss": 0.8884,
+      "step": 328
+    },
+    {
+      "epoch": 19.41176470588235,
+      "grad_norm": 0.7355157136917114,
+      "learning_rate": 9.973672149817232e-06,
+      "loss": 0.8175,
+      "step": 330
+    },
+    {
+      "epoch": 19.529411764705884,
+      "grad_norm": 0.7707788348197937,
+      "learning_rate": 9.972250593336689e-06,
+      "loss": 0.8878,
+      "step": 332
+    },
+    {
+      "epoch": 19.647058823529413,
+      "grad_norm": 1.0082019567489624,
+      "learning_rate": 9.970791767911581e-06,
+      "loss": 0.9118,
+      "step": 334
+    },
+    {
+      "epoch": 19.764705882352942,
+      "grad_norm": 0.8013073205947876,
+      "learning_rate": 9.96929568447637e-06,
+      "loss": 0.8724,
+      "step": 336
+    },
+    {
+      "epoch": 19.88235294117647,
+      "grad_norm": 0.6911207437515259,
+      "learning_rate": 9.967762354244778e-06,
+      "loss": 0.8832,
+      "step": 338
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.8336138725280762,
+      "learning_rate": 9.966191788709716e-06,
+      "loss": 0.9058,
+      "step": 340
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.9431850910186768,
+      "eval_runtime": 14.5083,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 340
+    },
+    {
+      "epoch": 20.11764705882353,
+      "grad_norm": 0.7745249271392822,
+      "learning_rate": 9.964583999643174e-06,
+      "loss": 0.878,
+      "step": 342
+    },
+    {
+      "epoch": 20.235294117647058,
+      "grad_norm": 0.7922182083129883,
+      "learning_rate": 9.962938999096159e-06,
+      "loss": 0.8275,
+      "step": 344
+    },
+    {
+      "epoch": 20.352941176470587,
+      "grad_norm": 0.8610040545463562,
+      "learning_rate": 9.961256799398584e-06,
+      "loss": 0.94,
+      "step": 346
+    },
+    {
+      "epoch": 20.470588235294116,
+      "grad_norm": 0.9406768083572388,
+      "learning_rate": 9.95953741315919e-06,
+      "loss": 0.8779,
+      "step": 348
+    },
+    {
+      "epoch": 20.58823529411765,
+      "grad_norm": 0.8344603180885315,
+      "learning_rate": 9.957780853265441e-06,
+      "loss": 0.8318,
+      "step": 350
+    },
+    {
+      "epoch": 20.705882352941178,
+      "grad_norm": 0.8624390363693237,
+      "learning_rate": 9.955987132883435e-06,
+      "loss": 0.8644,
+      "step": 352
+    },
+    {
+      "epoch": 20.823529411764707,
+      "grad_norm": 0.7996507287025452,
+      "learning_rate": 9.954156265457801e-06,
+      "loss": 0.8656,
+      "step": 354
+    },
+    {
+      "epoch": 20.941176470588236,
+      "grad_norm": 0.9234054684638977,
+      "learning_rate": 9.952288264711601e-06,
+      "loss": 0.8837,
+      "step": 356
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.9354000091552734,
+      "eval_runtime": 14.5044,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 357
+    },
+    {
+      "epoch": 21.058823529411764,
+      "grad_norm": 0.793875515460968,
+      "learning_rate": 9.950383144646221e-06,
+      "loss": 0.8662,
+      "step": 358
+    },
+    {
+      "epoch": 21.176470588235293,
+      "grad_norm": 0.8161793947219849,
+      "learning_rate": 9.948440919541277e-06,
+      "loss": 0.8713,
+      "step": 360
+    },
+    {
+      "epoch": 21.294117647058822,
+      "grad_norm": 0.9452466368675232,
+      "learning_rate": 9.946461603954499e-06,
+      "loss": 0.9299,
+      "step": 362
+    },
+    {
+      "epoch": 21.41176470588235,
+      "grad_norm": 0.8712689876556396,
+      "learning_rate": 9.944445212721619e-06,
+      "loss": 0.84,
+      "step": 364
+    },
+    {
+      "epoch": 21.529411764705884,
+      "grad_norm": 0.8613099455833435,
+      "learning_rate": 9.942391760956277e-06,
+      "loss": 0.8523,
+      "step": 366
+    },
+    {
+      "epoch": 21.647058823529413,
+      "grad_norm": 1.0285900831222534,
+      "learning_rate": 9.940301264049885e-06,
+      "loss": 0.8411,
+      "step": 368
+    },
+    {
+      "epoch": 21.764705882352942,
+      "grad_norm": 0.9434134364128113,
+      "learning_rate": 9.938173737671531e-06,
+      "loss": 0.819,
+      "step": 370
+    },
+    {
+      "epoch": 21.88235294117647,
+      "grad_norm": 0.9282283782958984,
+      "learning_rate": 9.936009197767847e-06,
+      "loss": 0.8783,
+      "step": 372
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 0.9603204131126404,
+      "learning_rate": 9.933807660562898e-06,
+      "loss": 0.795,
+      "step": 374
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.9314696788787842,
+      "eval_runtime": 14.5014,
+      "eval_samples_per_second": 2.483,
+      "eval_steps_per_second": 2.483,
+      "step": 374
+    },
+    {
+      "epoch": 22.11764705882353,
+      "grad_norm": 0.9283419847488403,
+      "learning_rate": 9.931569142558057e-06,
+      "loss": 0.8911,
+      "step": 376
+    },
+    {
+      "epoch": 22.235294117647058,
+      "grad_norm": 0.985173761844635,
+      "learning_rate": 9.929293660531889e-06,
+      "loss": 0.8351,
+      "step": 378
+    },
+    {
+      "epoch": 22.352941176470587,
+      "grad_norm": 0.9488443732261658,
+      "learning_rate": 9.926981231540007e-06,
+      "loss": 0.8245,
+      "step": 380
+    },
+    {
+      "epoch": 22.470588235294116,
+      "grad_norm": 1.0252861976623535,
+      "learning_rate": 9.924631872914967e-06,
+      "loss": 0.8096,
+      "step": 382
+    },
+    {
+      "epoch": 22.58823529411765,
+      "grad_norm": 0.8986847996711731,
+      "learning_rate": 9.922245602266119e-06,
+      "loss": 0.8311,
+      "step": 384
+    },
+    {
+      "epoch": 22.705882352941178,
+      "grad_norm": 0.9069613218307495,
+      "learning_rate": 9.919822437479488e-06,
+      "loss": 0.7961,
+      "step": 386
+    },
+    {
+      "epoch": 22.823529411764707,
+      "grad_norm": 0.8006130456924438,
+      "learning_rate": 9.91736239671763e-06,
+      "loss": 0.866,
+      "step": 388
+    },
+    {
+      "epoch": 22.941176470588236,
+      "grad_norm": 0.8258039355278015,
+      "learning_rate": 9.91486549841951e-06,
+      "loss": 0.8395,
+      "step": 390
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.9243198037147522,
+      "eval_runtime": 14.5142,
+      "eval_samples_per_second": 2.48,
+      "eval_steps_per_second": 2.48,
+      "step": 391
+    },
+    {
+      "epoch": 23.058823529411764,
+      "grad_norm": 1.0394818782806396,
+      "learning_rate": 9.912331761300341e-06,
+      "loss": 0.787,
+      "step": 392
+    },
+    {
+      "epoch": 23.176470588235293,
+      "grad_norm": 0.9367055892944336,
+      "learning_rate": 9.909761204351469e-06,
+      "loss": 0.8501,
+      "step": 394
+    },
+    {
+      "epoch": 23.294117647058822,
+      "grad_norm": 1.0531871318817139,
+      "learning_rate": 9.90715384684021e-06,
+      "loss": 0.8855,
+      "step": 396
+    },
+    {
+      "epoch": 23.41176470588235,
+      "grad_norm": 0.9447432160377502,
+      "learning_rate": 9.904509708309723e-06,
+      "loss": 0.7717,
+      "step": 398
+    },
+    {
+      "epoch": 23.529411764705884,
+      "grad_norm": 0.9809987545013428,
+      "learning_rate": 9.901828808578846e-06,
+      "loss": 0.7949,
+      "step": 400
+    },
+    {
+      "epoch": 23.647058823529413,
+      "grad_norm": 0.9656151533126831,
+      "learning_rate": 9.899111167741966e-06,
+      "loss": 0.8286,
+      "step": 402
+    },
+    {
+      "epoch": 23.764705882352942,
+      "grad_norm": 1.0195831060409546,
+      "learning_rate": 9.896356806168851e-06,
+      "loss": 0.8478,
+      "step": 404
+    },
+    {
+      "epoch": 23.88235294117647,
+      "grad_norm": 1.144056797027588,
+      "learning_rate": 9.89356574450451e-06,
+      "loss": 0.7723,
+      "step": 406
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 1.0349133014678955,
+      "learning_rate": 9.890738003669029e-06,
+      "loss": 0.8308,
+      "step": 408
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.9168965816497803,
+      "eval_runtime": 14.494,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 408
+    },
+    {
+      "epoch": 24.11764705882353,
+      "grad_norm": 1.003952980041504,
+      "learning_rate": 9.887873604857424e-06,
+      "loss": 0.8492,
+      "step": 410
+    },
+    {
+      "epoch": 24.235294117647058,
+      "grad_norm": 1.1212753057479858,
+      "learning_rate": 9.884972569539471e-06,
+      "loss": 0.8037,
+      "step": 412
+    },
+    {
+      "epoch": 24.352941176470587,
+      "grad_norm": 0.995343029499054,
+      "learning_rate": 9.882034919459556e-06,
+      "loss": 0.765,
+      "step": 414
+    },
+    {
+      "epoch": 24.470588235294116,
+      "grad_norm": 1.0651168823242188,
+      "learning_rate": 9.879060676636502e-06,
+      "loss": 0.8008,
+      "step": 416
+    },
+    {
+      "epoch": 24.58823529411765,
+      "grad_norm": 1.1323087215423584,
+      "learning_rate": 9.876049863363415e-06,
+      "loss": 0.8154,
+      "step": 418
+    },
+    {
+      "epoch": 24.705882352941178,
+      "grad_norm": 1.118166446685791,
+      "learning_rate": 9.873002502207502e-06,
+      "loss": 0.7665,
+      "step": 420
+    },
+    {
+      "epoch": 24.823529411764707,
+      "grad_norm": 1.1308856010437012,
+      "learning_rate": 9.86991861600992e-06,
+      "loss": 0.8056,
+      "step": 422
+    },
+    {
+      "epoch": 24.941176470588236,
+      "grad_norm": 1.0739870071411133,
+      "learning_rate": 9.866798227885588e-06,
+      "loss": 0.7863,
+      "step": 424
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.9137818217277527,
+      "eval_runtime": 14.4961,
+      "eval_samples_per_second": 2.483,
+      "eval_steps_per_second": 2.483,
+      "step": 425
+    },
+    {
+      "epoch": 25.058823529411764,
+      "grad_norm": 0.947708785533905,
+      "learning_rate": 9.863641361223025e-06,
+      "loss": 0.746,
+      "step": 426
+    },
+    {
+      "epoch": 25.176470588235293,
+      "grad_norm": 1.226585030555725,
+      "learning_rate": 9.860448039684169e-06,
+      "loss": 0.7622,
+      "step": 428
+    },
+    {
+      "epoch": 25.294117647058822,
+      "grad_norm": 1.2553542852401733,
+      "learning_rate": 9.857218287204204e-06,
+      "loss": 0.784,
+      "step": 430
+    },
+    {
+      "epoch": 25.41176470588235,
+      "grad_norm": 1.130286455154419,
+      "learning_rate": 9.853952127991374e-06,
+      "loss": 0.78,
+      "step": 432
+    },
+    {
+      "epoch": 25.529411764705884,
+      "grad_norm": 1.2538301944732666,
+      "learning_rate": 9.850649586526808e-06,
+      "loss": 0.7608,
+      "step": 434
+    },
+    {
+      "epoch": 25.647058823529413,
+      "grad_norm": 1.170310378074646,
+      "learning_rate": 9.847310687564335e-06,
+      "loss": 0.8389,
+      "step": 436
+    },
+    {
+      "epoch": 25.764705882352942,
+      "grad_norm": 0.9732166528701782,
+      "learning_rate": 9.843935456130295e-06,
+      "loss": 0.8158,
+      "step": 438
+    },
+    {
+      "epoch": 25.88235294117647,
+      "grad_norm": 1.2474738359451294,
+      "learning_rate": 9.840523917523354e-06,
+      "loss": 0.7528,
+      "step": 440
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 1.130893349647522,
+      "learning_rate": 9.83707609731432e-06,
+      "loss": 0.7468,
+      "step": 442
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.9068209528923035,
+      "eval_runtime": 14.5043,
+      "eval_samples_per_second": 2.482,
+      "eval_steps_per_second": 2.482,
+      "step": 442
+    },
+    {
+      "epoch": 26.11764705882353,
+      "grad_norm": 1.0452311038970947,
+      "learning_rate": 9.833592021345938e-06,
+      "loss": 0.7589,
+      "step": 444
+    },
+    {
+      "epoch": 26.235294117647058,
+      "grad_norm": 0.9809611439704895,
+      "learning_rate": 9.830071715732708e-06,
+      "loss": 0.8016,
+      "step": 446
+    },
+    {
+      "epoch": 26.352941176470587,
+      "grad_norm": 1.0656489133834839,
+      "learning_rate": 9.826515206860683e-06,
+      "loss": 0.7417,
+      "step": 448
+    },
+    {
+      "epoch": 26.470588235294116,
+      "grad_norm": 1.1188890933990479,
+      "learning_rate": 9.822922521387277e-06,
+      "loss": 0.7569,
+      "step": 450
+    },
+    {
+      "epoch": 26.58823529411765,
+      "grad_norm": 1.087983250617981,
+      "learning_rate": 9.819293686241057e-06,
+      "loss": 0.7596,
+      "step": 452
+    },
+    {
+      "epoch": 26.705882352941178,
+      "grad_norm": 1.0073840618133545,
+      "learning_rate": 9.81562872862155e-06,
+      "loss": 0.7423,
+      "step": 454
+    },
+    {
+      "epoch": 26.823529411764707,
+      "grad_norm": 1.0083576440811157,
+      "learning_rate": 9.811927675999035e-06,
+      "loss": 0.7533,
+      "step": 456
+    },
+    {
+      "epoch": 26.941176470588236,
+      "grad_norm": 1.0545302629470825,
+      "learning_rate": 9.808190556114333e-06,
+      "loss": 0.7658,
+      "step": 458
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.9007807970046997,
+      "eval_runtime": 14.5307,
+      "eval_samples_per_second": 2.478,
+      "eval_steps_per_second": 2.478,
+      "step": 459
+    },
+    {
+      "epoch": 27.058823529411764,
+      "grad_norm": 0.9539656043052673,
+      "learning_rate": 9.804417396978605e-06,
+      "loss": 0.7658,
+      "step": 460
+    },
+    {
+      "epoch": 27.176470588235293,
+      "grad_norm": 1.044712781906128,
+      "learning_rate": 9.800608226873143e-06,
+      "loss": 0.6566,
+      "step": 462
+    },
+    {
+      "epoch": 27.294117647058822,
+      "grad_norm": 1.3112603425979614,
+      "learning_rate": 9.796763074349147e-06,
+      "loss": 0.8283,
+      "step": 464
+    },
+    {
+      "epoch": 27.41176470588235,
+      "grad_norm": 1.1589727401733398,
+      "learning_rate": 9.792881968227533e-06,
+      "loss": 0.6633,
+      "step": 466
+    },
+    {
+      "epoch": 27.529411764705884,
+      "grad_norm": 0.9757166504859924,
+      "learning_rate": 9.788964937598688e-06,
+      "loss": 0.7725,
+      "step": 468
+    },
+    {
+      "epoch": 27.647058823529413,
+      "grad_norm": 1.1313936710357666,
+      "learning_rate": 9.78501201182228e-06,
+      "loss": 0.7581,
+      "step": 470
+    },
+    {
+      "epoch": 27.764705882352942,
+      "grad_norm": 1.1437342166900635,
+      "learning_rate": 9.781023220527013e-06,
+      "loss": 0.7226,
+      "step": 472
+    },
+    {
+      "epoch": 27.88235294117647,
+      "grad_norm": 1.1630206108093262,
+      "learning_rate": 9.776998593610428e-06,
+      "loss": 0.7693,
+      "step": 474
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 1.0083279609680176,
+      "learning_rate": 9.77293816123866e-06,
+      "loss": 0.7128,
+      "step": 476
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.8991827368736267,
+      "eval_runtime": 14.5006,
+      "eval_samples_per_second": 2.483,
+      "eval_steps_per_second": 2.483,
+      "step": 476
+    },
+    {
+      "epoch": 28.11764705882353,
+      "grad_norm": 1.1530383825302124,
+      "learning_rate": 9.768841953846225e-06,
+      "loss": 0.6908,
+      "step": 478
+    },
+    {
+      "epoch": 28.235294117647058,
+      "grad_norm": 1.0489223003387451,
+      "learning_rate": 9.764710002135784e-06,
+      "loss": 0.675,
+      "step": 480
+    },
+    {
+      "epoch": 28.352941176470587,
+      "grad_norm": 1.2449612617492676,
+      "learning_rate": 9.760542337077914e-06,
+      "loss": 0.7516,
+      "step": 482
+    },
+    {
+      "epoch": 28.470588235294116,
+      "grad_norm": 1.1940374374389648,
+      "learning_rate": 9.75633898991088e-06,
+      "loss": 0.7681,
+      "step": 484
+    },
+    {
+      "epoch": 28.58823529411765,
+      "grad_norm": 1.1063061952590942,
+      "learning_rate": 9.752099992140401e-06,
+      "loss": 0.7693,
+      "step": 486
+    },
+    {
+      "epoch": 28.705882352941178,
+      "grad_norm": 1.1479785442352295,
+      "learning_rate": 9.747825375539401e-06,
+      "loss": 0.7108,
+      "step": 488
+    },
+    {
+      "epoch": 28.823529411764707,
+      "grad_norm": 1.2331879138946533,
+      "learning_rate": 9.743515172147793e-06,
+      "loss": 0.7786,
+      "step": 490
+    },
+    {
+      "epoch": 28.941176470588236,
+      "grad_norm": 1.1679853200912476,
+      "learning_rate": 9.739169414272219e-06,
+      "loss": 0.6474,
+      "step": 492
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.906444787979126,
+      "eval_runtime": 14.4932,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 493
+    },
+    {
+      "epoch": 29.058823529411764,
+      "grad_norm": 1.0444296598434448,
+      "learning_rate": 9.734788134485817e-06,
+      "loss": 0.6756,
+      "step": 494
+    },
+    {
+      "epoch": 29.176470588235293,
+      "grad_norm": 1.5380338430404663,
+      "learning_rate": 9.73037136562798e-06,
+      "loss": 0.7099,
+      "step": 496
+    },
+    {
+      "epoch": 29.294117647058822,
+      "grad_norm": 1.166580080986023,
+      "learning_rate": 9.7259191408041e-06,
+      "loss": 0.7595,
+      "step": 498
+    },
+    {
+      "epoch": 29.41176470588235,
+      "grad_norm": 1.2345106601715088,
+      "learning_rate": 9.721431493385322e-06,
+      "loss": 0.7026,
+      "step": 500
+    },
+    {
+      "epoch": 29.529411764705884,
+      "grad_norm": 1.0901451110839844,
+      "learning_rate": 9.71690845700831e-06,
+      "loss": 0.6719,
+      "step": 502
+    },
+    {
+      "epoch": 29.647058823529413,
+      "grad_norm": 1.1619518995285034,
+      "learning_rate": 9.71235006557497e-06,
+      "loss": 0.7517,
+      "step": 504
+    },
+    {
+      "epoch": 29.764705882352942,
+      "grad_norm": 1.1259740591049194,
+      "learning_rate": 9.707756353252213e-06,
+      "loss": 0.7052,
+      "step": 506
+    },
+    {
+      "epoch": 29.88235294117647,
+      "grad_norm": 1.1172682046890259,
+      "learning_rate": 9.70312735447169e-06,
+      "loss": 0.655,
+      "step": 508
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 1.306216835975647,
+      "learning_rate": 9.698463103929542e-06,
+      "loss": 0.6387,
+      "step": 510
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.9089268445968628,
+      "eval_runtime": 14.4939,
+      "eval_samples_per_second": 2.484,
+      "eval_steps_per_second": 2.484,
+      "step": 510
+    },
+    {
+      "epoch": 30.11764705882353,
+      "grad_norm": 1.258402705192566,
+      "learning_rate": 9.693763636586135e-06,
+      "loss": 0.716,
+      "step": 512
+    },
+    {
+      "epoch": 30.235294117647058,
+      "grad_norm": 1.143336296081543,
+      "learning_rate": 9.689028987665797e-06,
+      "loss": 0.6283,
+      "step": 514
+    },
+    {
+      "epoch": 30.352941176470587,
+      "grad_norm": 1.1861103773117065,
+      "learning_rate": 9.684259192656554e-06,
+      "loss": 0.6445,
+      "step": 516
+    },
+    {
+      "epoch": 30.470588235294116,
+      "grad_norm": 1.2192977666854858,
+      "learning_rate": 9.679454287309868e-06,
+      "loss": 0.6928,
+      "step": 518
+    },
+    {
+      "epoch": 30.58823529411765,
+      "grad_norm": 1.3194884061813354,
+      "learning_rate": 9.674614307640368e-06,
+      "loss": 0.733,
+      "step": 520
+    },
+    {
+      "epoch": 30.705882352941178,
+      "grad_norm": 1.3853224515914917,
+      "learning_rate": 9.669739289925578e-06,
+      "loss": 0.6438,
+      "step": 522
+    },
+    {
+      "epoch": 30.823529411764707,
+      "grad_norm": 1.4584524631500244,
+      "learning_rate": 9.664829270705638e-06,
+      "loss": 0.7003,
+      "step": 524
+    },
+    {
+      "epoch": 30.941176470588236,
+      "grad_norm": 1.637763500213623,
+      "learning_rate": 9.659884286783052e-06,
+      "loss": 0.6846,
+      "step": 526
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.9096066355705261,
+      "eval_runtime": 14.5201,
+      "eval_samples_per_second": 2.479,
+      "eval_steps_per_second": 2.479,
+      "step": 527
+    },
+    {
+      "epoch": 31.058823529411764,
+      "grad_norm": 1.399101972579956,
+      "learning_rate": 9.654904375222384e-06,
+      "loss": 0.617,
+      "step": 528
+    },
+    {
+      "epoch": 31.176470588235293,
+      "grad_norm": 1.3545421361923218,
+      "learning_rate": 9.649889573350006e-06,
+      "loss": 0.6534,
+      "step": 530
+    },
+    {
+      "epoch": 31.294117647058822,
+      "grad_norm": 1.4606151580810547,
+      "learning_rate": 9.644839918753796e-06,
+      "loss": 0.6815,
+      "step": 532
+    },
+    {
+      "epoch": 31.41176470588235,
+      "grad_norm": 1.435264229774475,
+      "learning_rate": 9.639755449282874e-06,
+      "loss": 0.6696,
+      "step": 534
+    },
+    {
+      "epoch": 31.529411764705884,
+      "grad_norm": 1.2791359424591064,
+      "learning_rate": 9.634636203047309e-06,
+      "loss": 0.642,
+      "step": 536
+    },
+    {
+      "epoch": 31.647058823529413,
+      "grad_norm": 1.2923133373260498,
+      "learning_rate": 9.629482218417834e-06,
+      "loss": 0.712,
+      "step": 538
+    },
+    {
+      "epoch": 31.764705882352942,
+      "grad_norm": 1.2450653314590454,
+      "learning_rate": 9.62429353402556e-06,
+      "loss": 0.6357,
+      "step": 540
+    },
+    {
+      "epoch": 31.88235294117647,
+      "grad_norm": 1.31989586353302,
+      "learning_rate": 9.619070188761687e-06,
+      "loss": 0.6692,
+      "step": 542
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 1.3321213722229004,
+      "learning_rate": 9.613812221777212e-06,
+      "loss": 0.6424,
+      "step": 544
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.9172940850257874,
+      "eval_runtime": 14.4984,
+      "eval_samples_per_second": 2.483,
+      "eval_steps_per_second": 2.483,
+      "step": 544
+    },
+    {
+      "epoch": 32.11764705882353,
+      "grad_norm": 1.2186630964279175,
+      "learning_rate": 9.608519672482635e-06,
+      "loss": 0.5872,
+      "step": 546
+    },
+    {
+      "epoch": 32.23529411764706,
+      "grad_norm": 1.5495742559432983,
+      "learning_rate": 9.603192580547664e-06,
+      "loss": 0.6069,
+      "step": 548
+    },
+    {
+      "epoch": 32.35294117647059,
+      "grad_norm": 1.551956295967102,
+      "learning_rate": 9.597830985900913e-06,
+      "loss": 0.6971,
+      "step": 550
+    },
+    {
+      "epoch": 32.470588235294116,
+      "grad_norm": 1.5809985399246216,
+      "learning_rate": 9.592434928729617e-06,
+      "loss": 0.6887,
+      "step": 552
+    },
+    {
+      "epoch": 32.588235294117645,
+      "grad_norm": 1.5837764739990234,
+      "learning_rate": 9.58700444947931e-06,
+      "loss": 0.6228,
+      "step": 554
+    },
+    {
+      "epoch": 32.705882352941174,
+      "grad_norm": 1.4612311124801636,
+      "learning_rate": 9.581539588853539e-06,
+      "loss": 0.6002,
+      "step": 556
+    },
+    {
+      "epoch": 32.8235294117647,
+      "grad_norm": 1.4830561876296997,
+      "learning_rate": 9.576040387813553e-06,
+      "loss": 0.6673,
+      "step": 558
+    },
+    {
+      "epoch": 32.94117647058823,
+      "grad_norm": 1.5311380624771118,
+      "learning_rate": 9.570506887577994e-06,
+      "loss": 0.6598,
+      "step": 560
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.9237830638885498,
+      "eval_runtime": 14.5075,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 561
+    },
+    {
+      "epoch": 33.05882352941177,
+      "grad_norm": 1.3405797481536865,
+      "learning_rate": 9.564939129622591e-06,
+      "loss": 0.6105,
+      "step": 562
+    },
+    {
+      "epoch": 33.1764705882353,
+      "grad_norm": 1.4336148500442505,
+      "learning_rate": 9.559337155679843e-06,
+      "loss": 0.572,
+      "step": 564
+    },
+    {
+      "epoch": 33.294117647058826,
+      "grad_norm": 1.4750621318817139,
+      "learning_rate": 9.553701007738717e-06,
+      "loss": 0.5598,
+      "step": 566
+    },
+    {
+      "epoch": 33.411764705882355,
+      "grad_norm": 1.4853854179382324,
+      "learning_rate": 9.54803072804433e-06,
+      "loss": 0.6175,
+      "step": 568
+    },
+    {
+      "epoch": 33.529411764705884,
+      "grad_norm": 1.5611326694488525,
+      "learning_rate": 9.542326359097619e-06,
+      "loss": 0.5898,
+      "step": 570
+    },
+    {
+      "epoch": 33.64705882352941,
+      "grad_norm": 1.4341068267822266,
+      "learning_rate": 9.536587943655043e-06,
+      "loss": 0.6158,
+      "step": 572
+    },
+    {
+      "epoch": 33.76470588235294,
+      "grad_norm": 1.3872367143630981,
+      "learning_rate": 9.530815524728245e-06,
+      "loss": 0.6776,
+      "step": 574
+    },
+    {
+      "epoch": 33.88235294117647,
+      "grad_norm": 1.3841159343719482,
+      "learning_rate": 9.525009145583746e-06,
+      "loss": 0.6208,
+      "step": 576
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 1.5026782751083374,
+      "learning_rate": 9.519168849742603e-06,
+      "loss": 0.6634,
+      "step": 578
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.9289535880088806,
+      "eval_runtime": 14.5116,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 578
+    },
+    {
+      "epoch": 34.11764705882353,
+      "grad_norm": 1.5542646646499634,
+      "learning_rate": 9.5132946809801e-06,
+      "loss": 0.6259,
+      "step": 580
+    },
+    {
+      "epoch": 34.23529411764706,
+      "grad_norm": 1.337219476699829,
+      "learning_rate": 9.507386683325404e-06,
+      "loss": 0.5992,
+      "step": 582
+    },
+    {
+      "epoch": 34.35294117647059,
+      "grad_norm": 1.744362235069275,
+      "learning_rate": 9.501444901061248e-06,
+      "loss": 0.5903,
+      "step": 584
+    },
+    {
+      "epoch": 34.470588235294116,
+      "grad_norm": 1.5578619241714478,
+      "learning_rate": 9.495469378723592e-06,
+      "loss": 0.5371,
+      "step": 586
+    },
+    {
+      "epoch": 34.588235294117645,
+      "grad_norm": 1.679646611213684,
+      "learning_rate": 9.489460161101291e-06,
+      "loss": 0.617,
+      "step": 588
+    },
+    {
+      "epoch": 34.705882352941174,
+      "grad_norm": 1.5505824089050293,
+      "learning_rate": 9.483417293235759e-06,
+      "loss": 0.6008,
+      "step": 590
+    },
+    {
+      "epoch": 34.8235294117647,
+      "grad_norm": 1.9452924728393555,
+      "learning_rate": 9.477340820420633e-06,
+      "loss": 0.5852,
+      "step": 592
+    },
+    {
+      "epoch": 34.94117647058823,
+      "grad_norm": 1.5196162462234497,
+      "learning_rate": 9.471230788201429e-06,
+      "loss": 0.5893,
+      "step": 594
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.9399586915969849,
+      "eval_runtime": 14.5128,
+      "eval_samples_per_second": 2.481,
+      "eval_steps_per_second": 2.481,
+      "step": 595
+    },
+    {
+      "epoch": 35.0,
+      "step": 595,
+      "total_flos": 7.576813686279373e+16,
+      "train_loss": 1.1527870081052058,
+      "train_runtime": 5617.142,
+      "train_samples_per_second": 3.632,
+      "train_steps_per_second": 0.454
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 2550,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 25,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 7,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.576813686279373e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}