Model save

Browse files

Files changed (5) hide show

README.md +29 -19
adapter_model.safetensors +1 -1
all_results.json +5 -5
train_results.json +5 -5
trainer_state.json +1905 -89

README.md CHANGED Viewed

@@ -1,13 +1,11 @@
 ---
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: NbAiLab/nb-gpt-j-6B-v2
-datasets:
-- hugodk-sch/aftonposten_title_prefs
 model-index:
 - name: aftonposten-6b-align-scan
   results: []
@@ -18,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # aftonposten-6b-align-scan
-This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.7902
-- Rewards/chosen: -0.0060
-- Rewards/rejected: -0.0171
-- Rewards/accuracies: 0.5602
-- Rewards/margins: 0.0111
-- Logps/rejected: -37.5735
-- Logps/chosen: -34.0545
-- Logits/rejected: -2.2247
-- Logits/chosen: -2.2295
 ## Model description
@@ -57,15 +55,27 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 1
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 2.59          | 0.26  | 100  | 2.8958          | 0.0029         | 0.0052           | 0.4730             | -0.0024         | -37.4993       | -34.0250     | -2.2305         | -2.2353       |
-| 2.2795        | 0.52  | 200  | 2.8012          | -0.0060        | -0.0145          | 0.5278             | 0.0085          | -37.5651       | -34.0545     | -2.2290         | -2.2339       |
-| 1.7902        | 0.78  | 300  | 2.7585          | -0.0030        | -0.0167          | 0.5748             | 0.0137          | -37.5724       | -34.0446     | -2.2245         | -2.2294       |
 ### Framework versions

 ---
 library_name: peft
 tags:
 - trl
 - dpo
+- alignment-handbook
 - generated_from_trainer
 base_model: NbAiLab/nb-gpt-j-6B-v2
 model-index:
 - name: aftonposten-6b-align-scan
   results: []
 # aftonposten-6b-align-scan
+This model is a fine-tuned version of [NbAiLab/nb-gpt-j-6B-v2](https://huggingface.co/NbAiLab/nb-gpt-j-6B-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.7673
+- Rewards/chosen: 0.0035
+- Rewards/rejected: -0.0188
+- Rewards/accuracies: 0.5723
+- Rewards/margins: 0.0223
+- Logps/rejected: -37.5792
+- Logps/chosen: -34.0229
+- Logits/rejected: -2.2269
+- Logits/chosen: -2.2318
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 4
 ### Training results
+| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
+|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 2.59          | 0.26  | 100  | -2.2353       | -2.2305         | -34.0250     | -37.4993       | 2.8958          | 0.4730             | 0.0029         | -0.0024         | 0.0052           |
+| 2.2795        | 0.52  | 200  | -2.2339       | -2.2290         | -34.0545     | -37.5651       | 2.8012          | 0.5278             | -0.0060        | 0.0085          | -0.0145          |
+| 1.7902        | 0.78  | 300  | -2.2294       | -2.2245         | -34.0446     | -37.5724       | 2.7585          | 0.5748             | -0.0030        | 0.0137          | -0.0167          |
+| 1.1358        | 1.04  | 400  | 2.7145        | 0.0043          | -0.0169      | 0.5573         | 0.0212          | -37.5730           | -34.0204       | -2.2172         | -2.2221          |
+| 0.842         | 1.3   | 500  | 2.7488        | -0.0094         | -0.0331      | 0.5453         | 0.0237          | -37.6269           | -34.0658       | -2.2052         | -2.2100          |
+| 1.3074        | 1.56  | 600  | 2.7022        | -0.0190         | -0.0450      | 0.5718         | 0.0260          | -37.6668           | -34.0979       | -2.2232         | -2.2281          |
+| 1.2824        | 1.82  | 700  | 2.7508        | -0.0224         | -0.0454      | 0.5627         | 0.0230          | -37.6679           | -34.1092       | -2.2297         | -2.2346          |
+| 0.5946        | 2.08  | 800  | 2.8085        | -0.0013         | -0.0203      | 0.5573         | 0.0190          | -37.5843           | -34.0389       | -2.2324         | -2.2372          |
+| 0.3535        | 2.34  | 900  | 2.7256        | 0.0037          | -0.0203      | 0.5540         | 0.0240          | -37.5843           | -34.0222       | -2.2286         | -2.2334          |
+| 0.4205        | 2.6   | 1000 | 2.8066        | -0.0001         | -0.0187      | 0.5307         | 0.0186          | -37.5790           | -34.0348       | -2.2279         | -2.2328          |
+| 0.5121        | 2.86  | 1100 | 2.7946        | 0.0022          | -0.0186      | 0.5727         | 0.0208          | -37.5786           | -34.0271       | -2.2261         | -2.2310          |
+| 0.4011        | 3.12  | 1200 | 2.7715        | -0.0010         | -0.0223      | 0.5486         | 0.0213          | -37.5909           | -34.0378       | -2.2272         | -2.2321          |
+| 0.2672        | 3.38  | 1300 | 2.8251        | 0.0002          | -0.0172      | 0.5631         | 0.0174          | -37.5741           | -34.0340       | -2.2271         | -2.2320          |
+| 0.2484        | 3.64  | 1400 | 2.7913        | 0.0003          | -0.0200      | 0.5664         | 0.0203          | -37.5833           | -34.0337       | -2.2267         | -2.2316          |
+| 0.3309        | 3.9   | 1500 | 2.7673        | 0.0035          | -0.0188      | 0.5723         | 0.0223          | -37.5792           | -34.0229       | -2.2269         | -2.2318          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3279e12d4a650e82b5e386a480ba97a6d9456f8bccf39dd6da6bf92d5aac3c51
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:5be67a20fb9ec9e173f0c34b37f8efff061c1aa14ab63ad38093ea5ef1197b48
 size 176183216

all_results.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-    "epoch": 1.0,
     "eval_logits/chosen": -2.2295007705688477,
     "eval_logits/rejected": -2.2246556282043457,
     "eval_logps/chosen": -34.054466247558594,
@@ -13,9 +13,9 @@
     "eval_samples": 343,
     "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
-    "train_loss": 2.3457992528940177,
-    "train_runtime": 3250.6949,
     "train_samples": 3079,
-    "train_samples_per_second": 0.947,
-    "train_steps_per_second": 0.118
 }

 {
+    "epoch": 4.0,
     "eval_logits/chosen": -2.2295007705688477,
     "eval_logits/rejected": -2.2246556282043457,
     "eval_logps/chosen": -34.054466247558594,
     "eval_samples": 343,
     "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
+    "train_loss": 0.5763176552661053,
+    "train_runtime": 10799.143,
     "train_samples": 3079,
+    "train_samples_per_second": 1.14,
+    "train_steps_per_second": 0.143
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 2.3457992528940177,
-    "train_runtime": 3250.6949,
     "train_samples": 3079,
-    "train_samples_per_second": 0.947,
-    "train_steps_per_second": 0.118
 }

 {
+    "epoch": 4.0,
+    "train_loss": 0.5763176552661053,
+    "train_runtime": 10799.143,
     "train_samples": 3079,
+    "train_samples_per_second": 1.14,
+    "train_steps_per_second": 0.143
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 100,
-  "global_step": 385,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -492,130 +492,1946 @@
     },
     {
       "epoch": 0.81,
-      "learning_rate": 5.576113578589035e-07,
-      "logits/chosen": -1.9147694110870361,
-      "logits/rejected": -1.9114938974380493,
-      "logps/chosen": -31.310047149658203,
-      "logps/rejected": -33.77363967895508,
-      "loss": 2.1768,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.08799003809690475,
-      "rewards/margins": 0.09743582457304001,
-      "rewards/rejected": -0.009445784613490105,
       "step": 310
     },
     {
       "epoch": 0.83,
-      "learning_rate": 4.229036944380913e-07,
-      "logits/chosen": -1.965264081954956,
-      "logits/rejected": -1.953029990196228,
-      "logps/chosen": -34.34061050415039,
-      "logps/rejected": -33.643863677978516,
-      "loss": 1.9927,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.07663901150226593,
-      "rewards/margins": 0.10814561694860458,
-      "rewards/rejected": -0.03150660917162895,
       "step": 320
     },
     {
       "epoch": 0.86,
-      "learning_rate": 3.053082288996112e-07,
-      "logits/chosen": -1.9999011754989624,
-      "logits/rejected": -1.9984591007232666,
-      "logps/chosen": -33.24303436279297,
-      "logps/rejected": -32.54120635986328,
-      "loss": 2.1065,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.0728277713060379,
-      "rewards/margins": 0.09131507575511932,
-      "rewards/rejected": -0.01848730817437172,
       "step": 330
     },
     {
       "epoch": 0.88,
-      "learning_rate": 2.0579377374915805e-07,
-      "logits/chosen": -2.086862802505493,
-      "logits/rejected": -2.0711212158203125,
-      "logps/chosen": -33.77810287475586,
-      "logps/rejected": -33.093299865722656,
-      "loss": 2.0709,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.12038693577051163,
-      "rewards/margins": 0.1129666194319725,
-      "rewards/rejected": 0.007420300040394068,
       "step": 340
     },
     {
       "epoch": 0.91,
-      "learning_rate": 1.2518018074041684e-07,
-      "logits/chosen": -1.9597351551055908,
-      "logits/rejected": -1.9588581323623657,
-      "logps/chosen": -32.87625503540039,
-      "logps/rejected": -32.52130889892578,
-      "loss": 1.9515,
       "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": 0.12175308167934418,
-      "rewards/margins": 0.13860100507736206,
-      "rewards/rejected": -0.016847927123308182,
       "step": 350
     },
     {
       "epoch": 0.94,
-      "learning_rate": 6.41315865106129e-08,
-      "logits/chosen": -1.9148937463760376,
-      "logits/rejected": -1.9252065420150757,
-      "logps/chosen": -31.9158935546875,
-      "logps/rejected": -35.31604766845703,
-      "loss": 2.1343,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.08664007484912872,
-      "rewards/margins": 0.09482574462890625,
-      "rewards/rejected": -0.008185659535229206,
       "step": 360
     },
     {
       "epoch": 0.96,
-      "learning_rate": 2.3150941078050325e-08,
-      "logits/chosen": -2.053968906402588,
-      "logits/rejected": -2.047475576400757,
-      "logps/chosen": -33.36884307861328,
-      "logps/rejected": -29.23018455505371,
-      "loss": 2.1339,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.08493683487176895,
-      "rewards/margins": 0.08606470376253128,
-      "rewards/rejected": -0.0011278685415163636,
       "step": 370
     },
     {
       "epoch": 0.99,
-      "learning_rate": 2.575864278703266e-09,
-      "logits/chosen": -1.9135916233062744,
-      "logits/rejected": -1.9158084392547607,
-      "logps/chosen": -33.879058837890625,
-      "logps/rejected": -30.930347442626953,
-      "loss": 1.9191,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.10799793899059296,
-      "rewards/margins": 0.12531307339668274,
-      "rewards/rejected": -0.017315123230218887,
       "step": 380
     },
     {
-      "epoch": 1.0,
-      "step": 385,
       "total_flos": 0.0,
-      "train_loss": 2.3457992528940177,
-      "train_runtime": 3250.6949,
-      "train_samples_per_second": 0.947,
-      "train_steps_per_second": 0.118
     }
   ],
   "logging_steps": 10,
-  "max_steps": 385,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 4,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 100,
+  "global_step": 1540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 0.81,
+      "learning_rate": 4.84533120650964e-06,
+      "logits/chosen": -1.913961410522461,
+      "logits/rejected": -1.9106886386871338,
+      "logps/chosen": -31.318857192993164,
+      "logps/rejected": -33.77204513549805,
+      "loss": 2.2088,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.08534741401672363,
+      "rewards/margins": 0.09431613236665726,
+      "rewards/rejected": -0.008968725800514221,
       "step": 310
     },
     {
       "epoch": 0.83,
+      "learning_rate": 4.825108134172131e-06,
+      "logits/chosen": -1.9629987478256226,
+      "logits/rejected": -1.9507677555084229,
+      "logps/chosen": -34.35413360595703,
+      "logps/rejected": -33.61958312988281,
+      "loss": 2.0934,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.07258231937885284,
+      "rewards/margins": 0.09680517762899399,
+      "rewards/rejected": -0.024222861975431442,
       "step": 320
     },
     {
       "epoch": 0.86,
+      "learning_rate": 4.80369052967602e-06,
+      "logits/chosen": -1.998734712600708,
+      "logits/rejected": -1.9973121881484985,
+      "logps/chosen": -33.19254684448242,
+      "logps/rejected": -32.54850387573242,
+      "loss": 1.9721,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.08797496557235718,
+      "rewards/margins": 0.10865161567926407,
+      "rewards/rejected": -0.020676637068390846,
       "step": 330
     },
     {
       "epoch": 0.88,
+      "learning_rate": 4.781089396387968e-06,
+      "logits/chosen": -2.0848472118377686,
+      "logits/rejected": -2.0691235065460205,
+      "logps/chosen": -33.76462173461914,
+      "logps/rejected": -33.10074234008789,
+      "loss": 1.9899,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.12443150579929352,
+      "rewards/margins": 0.11924245208501816,
+      "rewards/rejected": 0.005189062096178532,
       "step": 340
     },
     {
       "epoch": 0.91,
+      "learning_rate": 4.757316345716554e-06,
+      "logits/chosen": -1.9581273794174194,
+      "logits/rejected": -1.957232117652893,
+      "logps/chosen": -32.85580062866211,
+      "logps/rejected": -32.48882293701172,
+      "loss": 1.9291,
       "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.1278878152370453,
+      "rewards/margins": 0.13498859107494354,
+      "rewards/rejected": -0.007100761868059635,
       "step": 350
     },
     {
       "epoch": 0.94,
+      "learning_rate": 4.73238359114687e-06,
+      "logits/chosen": -1.9130855798721313,
+      "logits/rejected": -1.9233741760253906,
+      "logps/chosen": -31.818429946899414,
+      "logps/rejected": -35.345218658447266,
+      "loss": 2.0234,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.11587802320718765,
+      "rewards/margins": 0.1328156441450119,
+      "rewards/rejected": -0.0169376190751791,
       "step": 360
     },
     {
       "epoch": 0.96,
+      "learning_rate": 4.706303941965804e-06,
+      "logits/chosen": -2.04890775680542,
+      "logits/rejected": -2.042478561401367,
+      "logps/chosen": -33.29634094238281,
+      "logps/rejected": -29.252614974975586,
+      "loss": 1.9656,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": 0.10668818652629852,
+      "rewards/margins": 0.1145448237657547,
+      "rewards/rejected": -0.00785664189606905,
       "step": 370
     },
     {
       "epoch": 0.99,
+      "learning_rate": 4.679090796681225e-06,
+      "logits/chosen": -1.9075864553451538,
+      "logits/rejected": -1.909790277481079,
+      "logps/chosen": -33.689239501953125,
+      "logps/rejected": -30.878931045532227,
+      "loss": 1.7909,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.16494306921958923,
+      "rewards/margins": 0.16683341562747955,
+      "rewards/rejected": -0.0018903283635154366,
       "step": 380
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 4.650758136138454e-06,
+      "logits/chosen": -1.9365580081939697,
+      "logits/rejected": -1.9353389739990234,
+      "logps/chosen": -33.854270935058594,
+      "logps/rejected": -35.9100227355957,
+      "loss": 1.3576,
+      "rewards/accuracies": 0.845833420753479,
+      "rewards/chosen": 0.15915581583976746,
+      "rewards/margins": 0.23536045849323273,
+      "rewards/rejected": -0.07620462775230408,
+      "step": 390
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.621320516337559e-06,
+      "logits/chosen": -1.8729753494262695,
+      "logits/rejected": -1.8645976781845093,
+      "logps/chosen": -31.197795867919922,
+      "logps/rejected": -36.29020690917969,
+      "loss": 1.1358,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.1728539764881134,
+      "rewards/margins": 0.2777361571788788,
+      "rewards/rejected": -0.10488219559192657,
+      "step": 400
+    },
+    {
+      "epoch": 1.04,
+      "eval_logits/chosen": -2.2220804691314697,
+      "eval_logits/rejected": -2.21720027923584,
+      "eval_logps/chosen": -34.020362854003906,
+      "eval_logps/rejected": -37.57297897338867,
+      "eval_loss": 2.7145347595214844,
+      "eval_rewards/accuracies": 0.5573089718818665,
+      "eval_rewards/chosen": 0.004255868028849363,
+      "eval_rewards/margins": 0.021163523197174072,
+      "eval_rewards/rejected": -0.01690765656530857,
+      "eval_runtime": 146.3895,
+      "eval_samples_per_second": 2.343,
+      "eval_steps_per_second": 0.294,
+      "step": 400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.590793060955158e-06,
+      "logits/chosen": -2.048337936401367,
+      "logits/rejected": -2.051287889480591,
+      "logps/chosen": -32.42567825317383,
+      "logps/rejected": -35.118385314941406,
+      "loss": 1.1201,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.18847835063934326,
+      "rewards/margins": 0.2861395478248596,
+      "rewards/rejected": -0.09766118973493576,
+      "step": 410
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.559191453574582e-06,
+      "logits/chosen": -1.8899818658828735,
+      "logits/rejected": -1.8886104822158813,
+      "logps/chosen": -28.469974517822266,
+      "logps/rejected": -32.66831588745117,
+      "loss": 0.9649,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.17927470803260803,
+      "rewards/margins": 0.28447118401527405,
+      "rewards/rejected": -0.10519645363092422,
+      "step": 420
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.52653192962838e-06,
+      "logits/chosen": -1.847696304321289,
+      "logits/rejected": -1.840720534324646,
+      "logps/chosen": -33.315834045410156,
+      "logps/rejected": -34.448524475097656,
+      "loss": 1.0039,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.22747480869293213,
+      "rewards/margins": 0.28844988346099854,
+      "rewards/rejected": -0.0609750859439373,
+      "step": 430
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.492831268057307e-06,
+      "logits/chosen": -2.0194411277770996,
+      "logits/rejected": -2.0143327713012695,
+      "logps/chosen": -31.07706069946289,
+      "logps/rejected": -32.33830642700195,
+      "loss": 1.0755,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.2118721455335617,
+      "rewards/margins": 0.323079913854599,
+      "rewards/rejected": -0.1112077385187149,
+      "step": 440
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 4.458106782690094e-06,
+      "logits/chosen": -1.9053621292114258,
+      "logits/rejected": -1.909564733505249,
+      "logps/chosen": -33.75780487060547,
+      "logps/rejected": -33.03002166748047,
+      "loss": 0.762,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.2274133712053299,
+      "rewards/margins": 0.35982832312583923,
+      "rewards/rejected": -0.13241496682167053,
+      "step": 450
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 4.422376313348405e-06,
+      "logits/chosen": -1.9145190715789795,
+      "logits/rejected": -1.9087648391723633,
+      "logps/chosen": -34.66414260864258,
+      "logps/rejected": -35.435611724853516,
+      "loss": 0.7729,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.2266150265932083,
+      "rewards/margins": 0.3725685179233551,
+      "rewards/rejected": -0.1459534913301468,
+      "step": 460
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 4.3856582166815696e-06,
+      "logits/chosen": -1.9441449642181396,
+      "logits/rejected": -1.9437577724456787,
+      "logps/chosen": -33.43156814575195,
+      "logps/rejected": -34.55840301513672,
+      "loss": 0.8983,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.22102901339530945,
+      "rewards/margins": 0.3329058289527893,
+      "rewards/rejected": -0.11187677085399628,
+      "step": 470
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 4.347971356735789e-06,
+      "logits/chosen": -1.9919426441192627,
+      "logits/rejected": -1.9730838537216187,
+      "logps/chosen": -33.42109298706055,
+      "logps/rejected": -33.51959228515625,
+      "loss": 0.8516,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.22190213203430176,
+      "rewards/margins": 0.3567855954170227,
+      "rewards/rejected": -0.13488344848155975,
+      "step": 480
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 4.309335095262675e-06,
+      "logits/chosen": -1.9600021839141846,
+      "logits/rejected": -1.959425687789917,
+      "logps/chosen": -30.914112091064453,
+      "logps/rejected": -31.54854393005371,
+      "loss": 0.9185,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.2091566026210785,
+      "rewards/margins": 0.29990634322166443,
+      "rewards/rejected": -0.09074974805116653,
+      "step": 490
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 4.269769281772082e-06,
+      "logits/chosen": -1.925381064414978,
+      "logits/rejected": -1.918460488319397,
+      "logps/chosen": -32.001102447509766,
+      "logps/rejected": -35.07819366455078,
+      "loss": 0.842,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.20070871710777283,
+      "rewards/margins": 0.33614423871040344,
+      "rewards/rejected": -0.13543552160263062,
+      "step": 500
+    },
+    {
+      "epoch": 1.3,
+      "eval_logits/chosen": -2.2100203037261963,
+      "eval_logits/rejected": -2.2051749229431152,
+      "eval_logps/chosen": -34.06578063964844,
+      "eval_logps/rejected": -37.626869201660156,
+      "eval_loss": 2.748755693435669,
+      "eval_rewards/accuracies": 0.545265793800354,
+      "eval_rewards/chosen": -0.009368383325636387,
+      "eval_rewards/margins": 0.023705704137682915,
+      "eval_rewards/rejected": -0.033074092119932175,
+      "eval_runtime": 145.9371,
+      "eval_samples_per_second": 2.35,
+      "eval_steps_per_second": 0.295,
+      "step": 500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4.22929424333435e-06,
+      "logits/chosen": -1.9246925115585327,
+      "logits/rejected": -1.9284820556640625,
+      "logps/chosen": -28.50702476501465,
+      "logps/rejected": -33.27742004394531,
+      "loss": 0.9643,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.20034047961235046,
+      "rewards/margins": 0.32577869296073914,
+      "rewards/rejected": -0.12543818354606628,
+      "step": 510
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.1879307741372085e-06,
+      "logits/chosen": -1.9368045330047607,
+      "logits/rejected": -1.947389006614685,
+      "logps/chosen": -32.59033966064453,
+      "logps/rejected": -30.988018035888672,
+      "loss": 1.0336,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.20159777998924255,
+      "rewards/margins": 0.30249762535095215,
+      "rewards/rejected": -0.100899837911129,
+      "step": 520
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.145700124802693e-06,
+      "logits/chosen": -1.8843421936035156,
+      "logits/rejected": -1.8818985223770142,
+      "logps/chosen": -30.96946144104004,
+      "logps/rejected": -30.476232528686523,
+      "loss": 0.8922,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.20928528904914856,
+      "rewards/margins": 0.29912617802619934,
+      "rewards/rejected": -0.08984090387821198,
+      "step": 530
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.102623991469562e-06,
+      "logits/chosen": -1.9689937829971313,
+      "logits/rejected": -1.9618867635726929,
+      "logps/chosen": -33.4919548034668,
+      "logps/rejected": -33.414024353027344,
+      "loss": 0.8707,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.22226205468177795,
+      "rewards/margins": 0.34122234582901,
+      "rewards/rejected": -0.11896030604839325,
+      "step": 540
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.058724504646834e-06,
+      "logits/chosen": -1.9358627796173096,
+      "logits/rejected": -1.9422714710235596,
+      "logps/chosen": -31.05177879333496,
+      "logps/rejected": -33.11052703857422,
+      "loss": 0.8711,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.2104228436946869,
+      "rewards/margins": 0.3159605860710144,
+      "rewards/rejected": -0.10553774982690811,
+      "step": 550
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 4.014024217844167e-06,
+      "logits/chosen": -2.007368803024292,
+      "logits/rejected": -1.9841699600219727,
+      "logps/chosen": -30.822118759155273,
+      "logps/rejected": -33.421234130859375,
+      "loss": 1.112,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.1846354603767395,
+      "rewards/margins": 0.31218937039375305,
+      "rewards/rejected": -0.12755386531352997,
+      "step": 560
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.968546095984911e-06,
+      "logits/chosen": -1.9438260793685913,
+      "logits/rejected": -1.938947319984436,
+      "logps/chosen": -31.676071166992188,
+      "logps/rejected": -32.48112106323242,
+      "loss": 1.1236,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.22219793498516083,
+      "rewards/margins": 0.3302595913410187,
+      "rewards/rejected": -0.10806162655353546,
+      "step": 570
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.922313503607806e-06,
+      "logits/chosen": -1.988651990890503,
+      "logits/rejected": -1.9905750751495361,
+      "logps/chosen": -33.790245056152344,
+      "logps/rejected": -35.30215835571289,
+      "loss": 0.9454,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.17566607892513275,
+      "rewards/margins": 0.3260383605957031,
+      "rewards/rejected": -0.15037226676940918,
+      "step": 580
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3.875350192863368e-06,
+      "logits/chosen": -1.9764407873153687,
+      "logits/rejected": -1.9757487773895264,
+      "logps/chosen": -29.972003936767578,
+      "logps/rejected": -31.86748695373535,
+      "loss": 1.3098,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.18601693212985992,
+      "rewards/margins": 0.3077720105648041,
+      "rewards/rejected": -0.12175510078668594,
+      "step": 590
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 3.8276802913111436e-06,
+      "logits/chosen": -1.9929969310760498,
+      "logits/rejected": -1.9908206462860107,
+      "logps/chosen": -32.231727600097656,
+      "logps/rejected": -32.70503616333008,
+      "loss": 1.3074,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.2299668788909912,
+      "rewards/margins": 0.35148885846138,
+      "rewards/rejected": -0.12152198702096939,
+      "step": 600
+    },
+    {
+      "epoch": 1.56,
+      "eval_logits/chosen": -2.2280964851379395,
+      "eval_logits/rejected": -2.2232325077056885,
+      "eval_logps/chosen": -34.09792709350586,
+      "eval_logps/rejected": -37.6667594909668,
+      "eval_loss": 2.702193021774292,
+      "eval_rewards/accuracies": 0.5718438625335693,
+      "eval_rewards/chosen": -0.019013158977031708,
+      "eval_rewards/margins": 0.0260298028588295,
+      "eval_rewards/rejected": -0.04504295811057091,
+      "eval_runtime": 145.8362,
+      "eval_samples_per_second": 2.352,
+      "eval_steps_per_second": 0.295,
+      "step": 600
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 3.7793282895240927e-06,
+      "logits/chosen": -2.0413756370544434,
+      "logits/rejected": -2.0480709075927734,
+      "logps/chosen": -31.450891494750977,
+      "logps/rejected": -32.45174789428711,
+      "loss": 0.8495,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.2359478920698166,
+      "rewards/margins": 0.3525156080722809,
+      "rewards/rejected": -0.1165677085518837,
+      "step": 610
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 3.730319028506478e-06,
+      "logits/chosen": -1.9975080490112305,
+      "logits/rejected": -1.9950459003448486,
+      "logps/chosen": -33.930023193359375,
+      "logps/rejected": -31.34659194946289,
+      "loss": 0.9151,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.24775627255439758,
+      "rewards/margins": 0.3560810685157776,
+      "rewards/rejected": -0.10832476615905762,
+      "step": 620
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 3.6806776869317074e-06,
+      "logits/chosen": -1.9439729452133179,
+      "logits/rejected": -1.9370648860931396,
+      "logps/chosen": -34.60912322998047,
+      "logps/rejected": -32.83094024658203,
+      "loss": 0.9749,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.25653165578842163,
+      "rewards/margins": 0.39865174889564514,
+      "rewards/rejected": -0.14212007820606232,
+      "step": 630
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3.6304297682067146e-06,
+      "logits/chosen": -1.9510215520858765,
+      "logits/rejected": -1.9572662115097046,
+      "logps/chosen": -33.284202575683594,
+      "logps/rejected": -33.653526306152344,
+      "loss": 0.9691,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.20853087306022644,
+      "rewards/margins": 0.33251121640205383,
+      "rewards/rejected": -0.12398035824298859,
+      "step": 640
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 3.579601087369492e-06,
+      "logits/chosen": -2.0401089191436768,
+      "logits/rejected": -2.0543549060821533,
+      "logps/chosen": -31.178333282470703,
+      "logps/rejected": -32.36495590209961,
+      "loss": 1.0007,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.20223848521709442,
+      "rewards/margins": 0.31241875886917114,
+      "rewards/rejected": -0.11018023639917374,
+      "step": 650
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 3.5282177578265295e-06,
+      "logits/chosen": -1.9176908731460571,
+      "logits/rejected": -1.9146522283554077,
+      "logps/chosen": -33.0969352722168,
+      "logps/rejected": -35.121665954589844,
+      "loss": 1.0214,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.24780750274658203,
+      "rewards/margins": 0.3742314875125885,
+      "rewards/rejected": -0.12642398476600647,
+      "step": 660
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 3.476306177936961e-06,
+      "logits/chosen": -2.0097954273223877,
+      "logits/rejected": -2.0099480152130127,
+      "logps/chosen": -30.54343032836914,
+      "logps/rejected": -34.20466232299805,
+      "loss": 0.7447,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2226485311985016,
+      "rewards/margins": 0.33613303303718567,
+      "rewards/rejected": -0.11348447948694229,
+      "step": 670
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 3.423893017450324e-06,
+      "logits/chosen": -1.9596326351165771,
+      "logits/rejected": -1.9565805196762085,
+      "logps/chosen": -30.143539428710938,
+      "logps/rejected": -33.235843658447266,
+      "loss": 1.0717,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.21864235401153564,
+      "rewards/margins": 0.3440553545951843,
+      "rewards/rejected": -0.12541300058364868,
+      "step": 680
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 3.3710052038048794e-06,
+      "logits/chosen": -1.9983398914337158,
+      "logits/rejected": -1.998247742652893,
+      "logps/chosen": -29.290761947631836,
+      "logps/rejected": -31.007495880126953,
+      "loss": 0.8594,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.2616986036300659,
+      "rewards/margins": 0.362798273563385,
+      "rewards/rejected": -0.10109970718622208,
+      "step": 690
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 3.3176699082935546e-06,
+      "logits/chosen": -1.9065154790878296,
+      "logits/rejected": -1.9098196029663086,
+      "logps/chosen": -33.76243209838867,
+      "logps/rejected": -31.786779403686523,
+      "loss": 1.2824,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 0.2148117572069168,
+      "rewards/margins": 0.31144005060195923,
+      "rewards/rejected": -0.09662826359272003,
+      "step": 700
+    },
+    {
+      "epoch": 1.82,
+      "eval_logits/chosen": -2.234584331512451,
+      "eval_logits/rejected": -2.2297234535217285,
+      "eval_logps/chosen": -34.10921096801758,
+      "eval_logps/rejected": -37.667877197265625,
+      "eval_loss": 2.7507741451263428,
+      "eval_rewards/accuracies": 0.5627076625823975,
+      "eval_rewards/chosen": -0.022397221997380257,
+      "eval_rewards/margins": 0.02297896333038807,
+      "eval_rewards/rejected": -0.045376185327768326,
+      "eval_runtime": 145.9412,
+      "eval_samples_per_second": 2.35,
+      "eval_steps_per_second": 0.295,
+      "step": 700
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3.2639145321045933e-06,
+      "logits/chosen": -1.9887504577636719,
+      "logits/rejected": -1.9794700145721436,
+      "logps/chosen": -35.74055099487305,
+      "logps/rejected": -32.28141403198242,
+      "loss": 0.8176,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.23144133388996124,
+      "rewards/margins": 0.3441217541694641,
+      "rewards/rejected": -0.11268042027950287,
+      "step": 710
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3.2097666922441107e-06,
+      "logits/chosen": -2.004058837890625,
+      "logits/rejected": -2.005059242248535,
+      "logps/chosen": -35.58434295654297,
+      "logps/rejected": -33.38105010986328,
+      "loss": 0.9979,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.25531288981437683,
+      "rewards/margins": 0.34682005643844604,
+      "rewards/rejected": -0.09150713682174683,
+      "step": 720
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.1552542073477554e-06,
+      "logits/chosen": -2.019291877746582,
+      "logits/rejected": -2.016794443130493,
+      "logps/chosen": -31.924413681030273,
+      "logps/rejected": -33.40862274169922,
+      "loss": 0.8798,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.19167427718639374,
+      "rewards/margins": 0.3151909410953522,
+      "rewards/rejected": -0.12351665645837784,
+      "step": 730
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3.100405083388799e-06,
+      "logits/chosen": -2.0047879219055176,
+      "logits/rejected": -2.0099570751190186,
+      "logps/chosen": -30.985260009765625,
+      "logps/rejected": -33.60847091674805,
+      "loss": 0.7509,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.24014058709144592,
+      "rewards/margins": 0.37623801827430725,
+      "rewards/rejected": -0.13609740138053894,
+      "step": 740
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3.0452474992899645e-06,
+      "logits/chosen": -1.949629783630371,
+      "logits/rejected": -1.9484565258026123,
+      "logps/chosen": -32.38895797729492,
+      "logps/rejected": -35.11094665527344,
+      "loss": 0.9358,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.22080639004707336,
+      "rewards/margins": 0.34830355644226074,
+      "rewards/rejected": -0.127497136592865,
+      "step": 750
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 2.989809792446417e-06,
+      "logits/chosen": -1.8270362615585327,
+      "logits/rejected": -1.8219047784805298,
+      "logps/chosen": -35.21699523925781,
+      "logps/rejected": -35.50707244873047,
+      "loss": 1.0518,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.2344343364238739,
+      "rewards/margins": 0.3240329623222351,
+      "rewards/rejected": -0.0895986333489418,
+      "step": 760
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 2.9341204441673267e-06,
+      "logits/chosen": -1.969038724899292,
+      "logits/rejected": -1.9727178812026978,
+      "logps/chosen": -34.40656661987305,
+      "logps/rejected": -33.838356018066406,
+      "loss": 1.0179,
+      "rewards/accuracies": 0.8833333849906921,
+      "rewards/chosen": 0.24212701618671417,
+      "rewards/margins": 0.3151811957359314,
+      "rewards/rejected": -0.07305420190095901,
+      "step": 770
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 2.878208065043501e-06,
+      "logits/chosen": -1.9119853973388672,
+      "logits/rejected": -1.9100983142852783,
+      "logps/chosen": -32.9580192565918,
+      "logps/rejected": -34.962135314941406,
+      "loss": 0.4598,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.28307104110717773,
+      "rewards/margins": 0.4503152370452881,
+      "rewards/rejected": -0.16724422574043274,
+      "step": 780
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 2.8221013802485974e-06,
+      "logits/chosen": -1.960938811302185,
+      "logits/rejected": -1.9594917297363281,
+      "logps/chosen": -32.456539154052734,
+      "logps/rejected": -33.508445739746094,
+      "loss": 0.4823,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.2757590711116791,
+      "rewards/margins": 0.4023224413394928,
+      "rewards/rejected": -0.12656334042549133,
+      "step": 790
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 2.76582921478147e-06,
+      "logits/chosen": -1.8920997381210327,
+      "logits/rejected": -1.8860002756118774,
+      "logps/chosen": -33.441009521484375,
+      "logps/rejected": -31.868255615234375,
+      "loss": 0.5946,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2826210558414459,
+      "rewards/margins": 0.40381956100463867,
+      "rewards/rejected": -0.12119851261377335,
+      "step": 800
+    },
+    {
+      "epoch": 2.08,
+      "eval_logits/chosen": -2.237243890762329,
+      "eval_logits/rejected": -2.23238205909729,
+      "eval_logps/chosen": -34.038944244384766,
+      "eval_logps/rejected": -37.584251403808594,
+      "eval_loss": 2.8084943294525146,
+      "eval_rewards/accuracies": 0.5573089718818665,
+      "eval_rewards/chosen": -0.0013179187662899494,
+      "eval_rewards/margins": 0.018971215933561325,
+      "eval_rewards/rejected": -0.020289132371544838,
+      "eval_runtime": 145.9108,
+      "eval_samples_per_second": 2.351,
+      "eval_steps_per_second": 0.295,
+      "step": 800
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 2.7094204786572254e-06,
+      "logits/chosen": -1.9936996698379517,
+      "logits/rejected": -2.0012588500976562,
+      "logps/chosen": -31.18770408630371,
+      "logps/rejected": -34.70355224609375,
+      "loss": 0.5486,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.28216588497161865,
+      "rewards/margins": 0.41647869348526,
+      "rewards/rejected": -0.1343127191066742,
+      "step": 810
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 2.6529041520546072e-06,
+      "logits/chosen": -1.9674571752548218,
+      "logits/rejected": -1.9703105688095093,
+      "logps/chosen": -31.648365020751953,
+      "logps/rejected": -33.587764739990234,
+      "loss": 0.5075,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.2768138647079468,
+      "rewards/margins": 0.38420218229293823,
+      "rewards/rejected": -0.10738833248615265,
+      "step": 820
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 2.5963092704273302e-06,
+      "logits/chosen": -1.8725074529647827,
+      "logits/rejected": -1.8766599893569946,
+      "logps/chosen": -31.63332748413086,
+      "logps/rejected": -35.44063186645508,
+      "loss": 0.4976,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.287439227104187,
+      "rewards/margins": 0.4465748369693756,
+      "rewards/rejected": -0.1591355949640274,
+      "step": 830
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.53966490958702e-06,
+      "logits/chosen": -1.9352226257324219,
+      "logits/rejected": -1.9313485622406006,
+      "logps/chosen": -32.06031799316406,
+      "logps/rejected": -33.345420837402344,
+      "loss": 0.8222,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.27250009775161743,
+      "rewards/margins": 0.37773144245147705,
+      "rewards/rejected": -0.10523136705160141,
+      "step": 840
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 2.4830001707654135e-06,
+      "logits/chosen": -2.0206172466278076,
+      "logits/rejected": -2.0226147174835205,
+      "logps/chosen": -31.859445571899414,
+      "logps/rejected": -36.106101989746094,
+      "loss": 0.4523,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2747666537761688,
+      "rewards/margins": 0.4080173075199127,
+      "rewards/rejected": -0.1332506239414215,
+      "step": 850
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 2.4263441656635054e-06,
+      "logits/chosen": -1.8238776922225952,
+      "logits/rejected": -1.8177616596221924,
+      "logps/chosen": -35.31499481201172,
+      "logps/rejected": -33.369178771972656,
+      "loss": 0.5286,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2900038957595825,
+      "rewards/margins": 0.4331858158111572,
+      "rewards/rejected": -0.1431819200515747,
+      "step": 860
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 2.3697260014953107e-06,
+      "logits/chosen": -1.8872458934783936,
+      "logits/rejected": -1.8873565196990967,
+      "logps/chosen": -34.84423065185547,
+      "logps/rejected": -35.240962982177734,
+      "loss": 0.5031,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.29957348108291626,
+      "rewards/margins": 0.41798338294029236,
+      "rewards/rejected": -0.11840987205505371,
+      "step": 870
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 2.3131747660339396e-06,
+      "logits/chosen": -1.9393589496612549,
+      "logits/rejected": -1.9278790950775146,
+      "logps/chosen": -33.1755256652832,
+      "logps/rejected": -33.432777404785156,
+      "loss": 0.4086,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2793174684047699,
+      "rewards/margins": 0.43254247307777405,
+      "rewards/rejected": -0.15322497487068176,
+      "step": 880
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 2.256719512667651e-06,
+      "logits/chosen": -2.039930820465088,
+      "logits/rejected": -2.0445265769958496,
+      "logps/chosen": -32.41832733154297,
+      "logps/rejected": -32.86511993408203,
+      "loss": 0.5315,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2734832167625427,
+      "rewards/margins": 0.40207424759864807,
+      "rewards/rejected": -0.12859100103378296,
+      "step": 890
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 2.2003892454735786e-06,
+      "logits/chosen": -1.9552028179168701,
+      "logits/rejected": -1.9479535818099976,
+      "logps/chosen": -33.88296890258789,
+      "logps/rejected": -32.84563064575195,
+      "loss": 0.3535,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.29133278131484985,
+      "rewards/margins": 0.42438235878944397,
+      "rewards/rejected": -0.1330495923757553,
+      "step": 900
+    },
+    {
+      "epoch": 2.34,
+      "eval_logits/chosen": -2.2334346771240234,
+      "eval_logits/rejected": -2.2285592555999756,
+      "eval_logps/chosen": -34.02215576171875,
+      "eval_logps/rejected": -37.584251403808594,
+      "eval_loss": 2.725637435913086,
+      "eval_rewards/accuracies": 0.5539867281913757,
+      "eval_rewards/chosen": 0.003719477914273739,
+      "eval_rewards/margins": 0.024009360000491142,
+      "eval_rewards/rejected": -0.020289884880185127,
+      "eval_runtime": 145.9216,
+      "eval_samples_per_second": 2.351,
+      "eval_steps_per_second": 0.295,
+      "step": 900
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.1442129043167877e-06,
+      "logits/chosen": -1.947854995727539,
+      "logits/rejected": -1.9484474658966064,
+      "logps/chosen": -30.2750244140625,
+      "logps/rejected": -35.1546630859375,
+      "loss": 0.6375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.26764118671417236,
+      "rewards/margins": 0.40713411569595337,
+      "rewards/rejected": -0.1394929587841034,
+      "step": 910
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 2.088219349982323e-06,
+      "logits/chosen": -1.9090734720230103,
+      "logits/rejected": -1.9009778499603271,
+      "logps/chosen": -30.872310638427734,
+      "logps/rejected": -34.03510284423828,
+      "loss": 0.6116,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2899911403656006,
+      "rewards/margins": 0.4291112422943115,
+      "rewards/rejected": -0.13912010192871094,
+      "step": 920
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 2.0324373493478803e-06,
+      "logits/chosen": -2.075429916381836,
+      "logits/rejected": -2.075995922088623,
+      "logps/chosen": -29.147113800048828,
+      "logps/rejected": -33.25724411010742,
+      "loss": 0.888,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.25497666001319885,
+      "rewards/margins": 0.372692346572876,
+      "rewards/rejected": -0.1177157312631607,
+      "step": 930
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.976895560604729e-06,
+      "logits/chosen": -1.9561622142791748,
+      "logits/rejected": -1.9657951593399048,
+      "logps/chosen": -33.404273986816406,
+      "logps/rejected": -33.500064849853516,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.3062388300895691,
+      "rewards/margins": 0.45936495065689087,
+      "rewards/rejected": -0.153126060962677,
+      "step": 940
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.921622518534466e-06,
+      "logits/chosen": -1.998156189918518,
+      "logits/rejected": -2.0020549297332764,
+      "logps/chosen": -29.782520294189453,
+      "logps/rejected": -32.168800354003906,
+      "loss": 0.511,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.25956016778945923,
+      "rewards/margins": 0.38937538862228394,
+      "rewards/rejected": -0.1298152506351471,
+      "step": 950
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.8666466198491794e-06,
+      "logits/chosen": -1.9971129894256592,
+      "logits/rejected": -1.9930740594863892,
+      "logps/chosen": -33.038108825683594,
+      "logps/rejected": -34.222476959228516,
+      "loss": 0.5584,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.31113213300704956,
+      "rewards/margins": 0.40595847368240356,
+      "rewards/rejected": -0.09482637047767639,
+      "step": 960
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.8119961086025376e-06,
+      "logits/chosen": -1.9126231670379639,
+      "logits/rejected": -1.9152530431747437,
+      "logps/chosen": -31.796194076538086,
+      "logps/rejected": -35.5867805480957,
+      "loss": 0.3983,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.3049660921096802,
+      "rewards/margins": 0.42652225494384766,
+      "rewards/rejected": -0.12155614793300629,
+      "step": 970
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.7576990616793139e-06,
+      "logits/chosen": -1.9468822479248047,
+      "logits/rejected": -1.9403536319732666,
+      "logps/chosen": -34.52521896362305,
+      "logps/rejected": -36.773746490478516,
+      "loss": 0.7554,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.26395466923713684,
+      "rewards/margins": 0.4174926280975342,
+      "rewards/rejected": -0.15353801846504211,
+      "step": 980
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.7037833743707892e-06,
+      "logits/chosen": -1.9193499088287354,
+      "logits/rejected": -1.9140777587890625,
+      "logps/chosen": -30.143762588500977,
+      "logps/rejected": -36.39270782470703,
+      "loss": 0.5759,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.2577562928199768,
+      "rewards/margins": 0.37860342860221863,
+      "rewards/rejected": -0.12084714323282242,
+      "step": 990
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 1.6502767460434588e-06,
+      "logits/chosen": -1.8965826034545898,
+      "logits/rejected": -1.885602593421936,
+      "logps/chosen": -30.77829933166504,
+      "logps/rejected": -30.00567626953125,
+      "loss": 0.4205,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2911164164543152,
+      "rewards/margins": 0.41289979219436646,
+      "rewards/rejected": -0.12178337574005127,
+      "step": 1000
+    },
+    {
+      "epoch": 2.6,
+      "eval_logits/chosen": -2.232767343521118,
+      "eval_logits/rejected": -2.2278943061828613,
+      "eval_logps/chosen": -34.03477478027344,
+      "eval_logps/rejected": -37.57896423339844,
+      "eval_loss": 2.8065927028656006,
+      "eval_rewards/accuracies": 0.5307309031486511,
+      "eval_rewards/chosen": -6.714276969432831e-05,
+      "eval_rewards/margins": 0.01863543689250946,
+      "eval_rewards/rejected": -0.018702581524848938,
+      "eval_runtime": 145.8056,
+      "eval_samples_per_second": 2.352,
+      "eval_steps_per_second": 0.295,
+      "step": 1000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 1.5972066659083796e-06,
+      "logits/chosen": -2.00972843170166,
+      "logits/rejected": -2.009073495864868,
+      "logps/chosen": -30.8530330657959,
+      "logps/rejected": -30.636966705322266,
+      "loss": 0.521,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.29134875535964966,
+      "rewards/margins": 0.4048939645290375,
+      "rewards/rejected": -0.11354520171880722,
+      "step": 1010
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 1.5446003988985041e-06,
+      "logits/chosen": -2.044478178024292,
+      "logits/rejected": -2.045170783996582,
+      "logps/chosen": -30.969898223876953,
+      "logps/rejected": -31.586406707763672,
+      "loss": 0.4631,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.29210424423217773,
+      "rewards/margins": 0.4182845950126648,
+      "rewards/rejected": -0.12618036568164825,
+      "step": 1020
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 1.4924849716612211e-06,
+      "logits/chosen": -2.0170657634735107,
+      "logits/rejected": -2.0201754570007324,
+      "logps/chosen": -31.390050888061523,
+      "logps/rejected": -28.406635284423828,
+      "loss": 0.4956,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.26700589060783386,
+      "rewards/margins": 0.39388108253479004,
+      "rewards/rejected": -0.12687517702579498,
+      "step": 1030
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 1.440887158673332e-06,
+      "logits/chosen": -2.031101703643799,
+      "logits/rejected": -2.0232481956481934,
+      "logps/chosen": -30.17348861694336,
+      "logps/rejected": -33.96366500854492,
+      "loss": 0.3554,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.3013220429420471,
+      "rewards/margins": 0.44035378098487854,
+      "rewards/rejected": -0.139031782746315,
+      "step": 1040
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 1.3898334684855647e-06,
+      "logits/chosen": -1.959812879562378,
+      "logits/rejected": -1.9708335399627686,
+      "logps/chosen": -32.60597610473633,
+      "logps/rejected": -32.627235412597656,
+      "loss": 0.446,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.28413859009742737,
+      "rewards/margins": 0.3988059163093567,
+      "rewards/rejected": -0.11466735601425171,
+      "step": 1050
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 1.3393501301037245e-06,
+      "logits/chosen": -2.039461135864258,
+      "logits/rejected": -2.0299925804138184,
+      "logps/chosen": -32.57851028442383,
+      "logps/rejected": -36.76939392089844,
+      "loss": 0.7536,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.27668142318725586,
+      "rewards/margins": 0.4080823063850403,
+      "rewards/rejected": -0.13140086829662323,
+      "step": 1060
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 1.2894630795134454e-06,
+      "logits/chosen": -1.9462810754776,
+      "logits/rejected": -1.9480304718017578,
+      "logps/chosen": -34.97504425048828,
+      "logps/rejected": -33.058712005615234,
+      "loss": 0.4457,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.3042721450328827,
+      "rewards/margins": 0.41252559423446655,
+      "rewards/rejected": -0.10825344175100327,
+      "step": 1070
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.2401979463554984e-06,
+      "logits/chosen": -2.0834527015686035,
+      "logits/rejected": -2.084644079208374,
+      "logps/chosen": -32.06096649169922,
+      "logps/rejected": -34.56989288330078,
+      "loss": 0.3651,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.29900139570236206,
+      "rewards/margins": 0.43526363372802734,
+      "rewards/rejected": -0.1362622082233429,
+      "step": 1080
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.1915800407584705e-06,
+      "logits/chosen": -2.0493340492248535,
+      "logits/rejected": -2.0534369945526123,
+      "logps/chosen": -29.894922256469727,
+      "logps/rejected": -33.94621658325195,
+      "loss": 0.6786,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.2995173931121826,
+      "rewards/margins": 0.41903191804885864,
+      "rewards/rejected": -0.11951451003551483,
+      "step": 1090
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.1436343403356019e-06,
+      "logits/chosen": -2.038386821746826,
+      "logits/rejected": -2.0437779426574707,
+      "logps/chosen": -32.619266510009766,
+      "logps/rejected": -30.790191650390625,
+      "loss": 0.5121,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.284921795129776,
+      "rewards/margins": 0.401477575302124,
+      "rewards/rejected": -0.1165558248758316,
+      "step": 1100
+    },
+    {
+      "epoch": 2.86,
+      "eval_logits/chosen": -2.2309653759002686,
+      "eval_logits/rejected": -2.226088523864746,
+      "eval_logps/chosen": -34.027095794677734,
+      "eval_logps/rejected": -37.578590393066406,
+      "eval_loss": 2.7946248054504395,
+      "eval_rewards/accuracies": 0.5726743936538696,
+      "eval_rewards/chosen": 0.0022365888580679893,
+      "eval_rewards/margins": 0.020828478038311005,
+      "eval_rewards/rejected": -0.01859188824892044,
+      "eval_runtime": 145.9533,
+      "eval_samples_per_second": 2.35,
+      "eval_steps_per_second": 0.295,
+      "step": 1100
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.0963854773524548e-06,
+      "logits/chosen": -2.0310146808624268,
+      "logits/rejected": -2.0306754112243652,
+      "logps/chosen": -31.951345443725586,
+      "logps/rejected": -31.370046615600586,
+      "loss": 0.5264,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.29664164781570435,
+      "rewards/margins": 0.40288034081459045,
+      "rewards/rejected": -0.1062387004494667,
+      "step": 1110
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.049857726072005e-06,
+      "logits/chosen": -1.8752002716064453,
+      "logits/rejected": -1.8767414093017578,
+      "logps/chosen": -33.654136657714844,
+      "logps/rejected": -33.44560623168945,
+      "loss": 0.7694,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.27325233817100525,
+      "rewards/margins": 0.3945540189743042,
+      "rewards/rejected": -0.12130165100097656,
+      "step": 1120
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.0040749902836508e-06,
+      "logits/chosen": -1.9149949550628662,
+      "logits/rejected": -1.912196397781372,
+      "logps/chosen": -30.21531105041504,
+      "logps/rejected": -31.496496200561523,
+      "loss": 0.8975,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.23892304301261902,
+      "rewards/margins": 0.33815068006515503,
+      "rewards/rejected": -0.09922759234905243,
+      "step": 1130
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 9.59060791022566e-07,
+      "logits/chosen": -2.0512359142303467,
+      "logits/rejected": -2.045522928237915,
+      "logps/chosen": -31.9990291595459,
+      "logps/rejected": -33.32525634765625,
+      "loss": 0.3862,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.31222957372665405,
+      "rewards/margins": 0.42360392212867737,
+      "rewards/rejected": -0.11137431859970093,
+      "step": 1140
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 9.148382544856885e-07,
+      "logits/chosen": -1.898686170578003,
+      "logits/rejected": -1.8885414600372314,
+      "logps/chosen": -32.57102584838867,
+      "logps/rejected": -31.68793296813965,
+      "loss": 0.5573,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.2642134130001068,
+      "rewards/margins": 0.3828732967376709,
+      "rewards/rejected": -0.11865979433059692,
+      "step": 1150
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 8.714301001505568e-07,
+      "logits/chosen": -1.9817955493927002,
+      "logits/rejected": -1.981529951095581,
+      "logps/chosen": -32.62514877319336,
+      "logps/rejected": -31.584686279296875,
+      "loss": 0.309,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.3169806897640228,
+      "rewards/margins": 0.43195247650146484,
+      "rewards/rejected": -0.11497180163860321,
+      "step": 1160
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.288586291031025e-07,
+      "logits/chosen": -2.052461624145508,
+      "logits/rejected": -2.0468575954437256,
+      "logps/chosen": -32.544010162353516,
+      "logps/rejected": -33.3515739440918,
+      "loss": 0.3583,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.29458826780319214,
+      "rewards/margins": 0.4176958203315735,
+      "rewards/rejected": -0.12310749292373657,
+      "step": 1170
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 7.871457125803897e-07,
+      "logits/chosen": -1.9057941436767578,
+      "logits/rejected": -1.913578987121582,
+      "logps/chosen": -32.369415283203125,
+      "logps/rejected": -32.830265045166016,
+      "loss": 0.293,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2890740931034088,
+      "rewards/margins": 0.42972269654273987,
+      "rewards/rejected": -0.14064857363700867,
+      "step": 1180
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 7.463127807341966e-07,
+      "logits/chosen": -1.9869006872177124,
+      "logits/rejected": -1.9810779094696045,
+      "logps/chosen": -31.156478881835938,
+      "logps/rejected": -33.652259826660156,
+      "loss": 0.3685,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.30514153838157654,
+      "rewards/margins": 0.4157847464084625,
+      "rewards/rejected": -0.11064320802688599,
+      "step": 1190
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 7.063808116212021e-07,
+      "logits/chosen": -1.9249032735824585,
+      "logits/rejected": -1.9270884990692139,
+      "logps/chosen": -32.53572082519531,
+      "logps/rejected": -33.25934600830078,
+      "loss": 0.4011,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.2864174544811249,
+      "rewards/margins": 0.43620601296424866,
+      "rewards/rejected": -0.14978858828544617,
+      "step": 1200
+    },
+    {
+      "epoch": 3.12,
+      "eval_logits/chosen": -2.2320587635040283,
+      "eval_logits/rejected": -2.22719407081604,
+      "eval_logps/chosen": -34.03776931762695,
+      "eval_logps/rejected": -37.59090042114258,
+      "eval_loss": 2.771493434906006,
+      "eval_rewards/accuracies": 0.5485880374908447,
+      "eval_rewards/chosen": -0.0009655026951804757,
+      "eval_rewards/margins": 0.021318301558494568,
+      "eval_rewards/rejected": -0.022283805534243584,
+      "eval_runtime": 145.9177,
+      "eval_samples_per_second": 2.351,
+      "eval_steps_per_second": 0.295,
+      "step": 1200
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 6.673703204254348e-07,
+      "logits/chosen": -1.8565280437469482,
+      "logits/rejected": -1.8553797006607056,
+      "logps/chosen": -35.000247955322266,
+      "logps/rejected": -33.142433166503906,
+      "loss": 0.3182,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.3156726062297821,
+      "rewards/margins": 0.44559246301651,
+      "rewards/rejected": -0.1299198716878891,
+      "step": 1210
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 6.293013489185315e-07,
+      "logits/chosen": -2.0334620475769043,
+      "logits/rejected": -2.027405261993408,
+      "logps/chosen": -30.731725692749023,
+      "logps/rejected": -33.369632720947266,
+      "loss": 0.3014,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2915892004966736,
+      "rewards/margins": 0.4389171004295349,
+      "rewards/rejected": -0.14732789993286133,
+      "step": 1220
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 5.921934551632086e-07,
+      "logits/chosen": -1.880632996559143,
+      "logits/rejected": -1.8688300848007202,
+      "logps/chosen": -33.38051986694336,
+      "logps/rejected": -33.32735061645508,
+      "loss": 0.35,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.30154940485954285,
+      "rewards/margins": 0.4316067695617676,
+      "rewards/rejected": -0.13005733489990234,
+      "step": 1230
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 5.560657034652405e-07,
+      "logits/chosen": -1.9715722799301147,
+      "logits/rejected": -1.9645836353302002,
+      "logps/chosen": -29.689788818359375,
+      "logps/rejected": -29.28457260131836,
+      "loss": 0.3088,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.3031342923641205,
+      "rewards/margins": 0.4282376170158386,
+      "rewards/rejected": -0.12510332465171814,
+      "step": 1240
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 5.2093665457911e-07,
+      "logits/chosen": -2.005354881286621,
+      "logits/rejected": -2.011704206466675,
+      "logps/chosen": -34.295631408691406,
+      "logps/rejected": -31.874095916748047,
+      "loss": 0.3386,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.3299277424812317,
+      "rewards/margins": 0.4366631507873535,
+      "rewards/rejected": -0.10673542320728302,
+      "step": 1250
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 4.868243561723535e-07,
+      "logits/chosen": -1.9740073680877686,
+      "logits/rejected": -1.9745842218399048,
+      "logps/chosen": -32.05846405029297,
+      "logps/rejected": -33.33855438232422,
+      "loss": 0.2856,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.29102879762649536,
+      "rewards/margins": 0.44813448190689087,
+      "rewards/rejected": -0.1571057140827179,
+      "step": 1260
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 4.537463335535161e-07,
+      "logits/chosen": -1.9194390773773193,
+      "logits/rejected": -1.9188978672027588,
+      "logps/chosen": -32.075077056884766,
+      "logps/rejected": -33.93248748779297,
+      "loss": 0.3179,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.3047292232513428,
+      "rewards/margins": 0.4282926917076111,
+      "rewards/rejected": -0.12356343120336533,
+      "step": 1270
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 4.217195806684629e-07,
+      "logits/chosen": -1.8014293909072876,
+      "logits/rejected": -1.7966254949569702,
+      "logps/chosen": -34.1694221496582,
+      "logps/rejected": -31.367359161376953,
+      "loss": 0.2987,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.32040566205978394,
+      "rewards/margins": 0.45266634225845337,
+      "rewards/rejected": -0.13226068019866943,
+      "step": 1280
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 3.907605513696808e-07,
+      "logits/chosen": -2.008068561553955,
+      "logits/rejected": -1.9922069311141968,
+      "logps/chosen": -33.34940719604492,
+      "logps/rejected": -35.33498001098633,
+      "loss": 0.2358,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.29945045709609985,
+      "rewards/margins": 0.47034788131713867,
+      "rewards/rejected": -0.1708974540233612,
+      "step": 1290
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 3.6088515096305675e-07,
+      "logits/chosen": -1.950233817100525,
+      "logits/rejected": -1.9552303552627563,
+      "logps/chosen": -32.515785217285156,
+      "logps/rejected": -36.63795852661133,
+      "loss": 0.2672,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.30055129528045654,
+      "rewards/margins": 0.46097177267074585,
+      "rewards/rejected": -0.1604204922914505,
+      "step": 1300
+    },
+    {
+      "epoch": 3.38,
+      "eval_logits/chosen": -2.2319700717926025,
+      "eval_logits/rejected": -2.227097749710083,
+      "eval_logps/chosen": -34.03395080566406,
+      "eval_logps/rejected": -37.574100494384766,
+      "eval_loss": 2.8251254558563232,
+      "eval_rewards/accuracies": 0.5631229281425476,
+      "eval_rewards/chosen": 0.00018060104048345238,
+      "eval_rewards/margins": 0.01742532290518284,
+      "eval_rewards/rejected": -0.017244720831513405,
+      "eval_runtime": 145.8462,
+      "eval_samples_per_second": 2.352,
+      "eval_steps_per_second": 0.295,
+      "step": 1300
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 3.321087280364757e-07,
+      "logits/chosen": -1.921814203262329,
+      "logits/rejected": -1.921927809715271,
+      "logps/chosen": -35.261505126953125,
+      "logps/rejected": -37.443077087402344,
+      "loss": 0.4227,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.2947538495063782,
+      "rewards/margins": 0.4024432599544525,
+      "rewards/rejected": -0.10768942534923553,
+      "step": 1310
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 3.044460665744284e-07,
+      "logits/chosen": -2.0089898109436035,
+      "logits/rejected": -2.007404327392578,
+      "logps/chosen": -31.107452392578125,
+      "logps/rejected": -31.33074378967285,
+      "loss": 0.3393,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2959212362766266,
+      "rewards/margins": 0.4091377258300781,
+      "rewards/rejected": -0.11321648210287094,
+      "step": 1320
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 2.779113783626916e-07,
+      "logits/chosen": -1.913175344467163,
+      "logits/rejected": -1.9146407842636108,
+      "logps/chosen": -33.32870101928711,
+      "logps/rejected": -34.072715759277344,
+      "loss": 0.23,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.31366580724716187,
+      "rewards/margins": 0.44087910652160645,
+      "rewards/rejected": -0.12721329927444458,
+      "step": 1330
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 2.5251829568697204e-07,
+      "logits/chosen": -1.9741986989974976,
+      "logits/rejected": -1.9729766845703125,
+      "logps/chosen": -30.287155151367188,
+      "logps/rejected": -32.518028259277344,
+      "loss": 0.3725,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.27345365285873413,
+      "rewards/margins": 0.43126893043518066,
+      "rewards/rejected": -0.15781526267528534,
+      "step": 1340
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 2.2827986432927774e-07,
+      "logits/chosen": -1.9914159774780273,
+      "logits/rejected": -1.9765985012054443,
+      "logps/chosen": -33.417686462402344,
+      "logps/rejected": -36.712074279785156,
+      "loss": 0.3691,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.26969602704048157,
+      "rewards/margins": 0.403988778591156,
+      "rewards/rejected": -0.1342928111553192,
+      "step": 1350
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 2.0520853686560177e-07,
+      "logits/chosen": -1.9975001811981201,
+      "logits/rejected": -2.010082960128784,
+      "logps/chosen": -31.060623168945312,
+      "logps/rejected": -32.55187225341797,
+      "loss": 0.3585,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.3023538291454315,
+      "rewards/margins": 0.3959945738315582,
+      "rewards/rejected": -0.0936407595872879,
+      "step": 1360
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 1.833161662683672e-07,
+      "logits/chosen": -2.0844500064849854,
+      "logits/rejected": -2.083676815032959,
+      "logps/chosen": -31.054336547851562,
+      "logps/rejected": -36.317108154296875,
+      "loss": 0.2726,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.29282861948013306,
+      "rewards/margins": 0.43869519233703613,
+      "rewards/rejected": -0.14586657285690308,
+      "step": 1370
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 1.626139998169246e-07,
+      "logits/chosen": -1.9504215717315674,
+      "logits/rejected": -1.9583799839019775,
+      "logps/chosen": -33.26082229614258,
+      "logps/rejected": -37.89590072631836,
+      "loss": 0.4793,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.2758983075618744,
+      "rewards/margins": 0.4097749590873718,
+      "rewards/rejected": -0.13387663662433624,
+      "step": 1380
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 1.4311267331922535e-07,
+      "logits/chosen": -1.9037997722625732,
+      "logits/rejected": -1.899585485458374,
+      "logps/chosen": -33.69878005981445,
+      "logps/rejected": -31.925487518310547,
+      "loss": 0.4337,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.3205293118953705,
+      "rewards/margins": 0.4189586043357849,
+      "rewards/rejected": -0.09842932224273682,
+      "step": 1390
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 1.2482220564763669e-07,
+      "logits/chosen": -2.0691137313842773,
+      "logits/rejected": -2.066561460494995,
+      "logps/chosen": -30.29781150817871,
+      "logps/rejected": -32.60316848754883,
+      "loss": 0.2484,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2996208071708679,
+      "rewards/margins": 0.43723049759864807,
+      "rewards/rejected": -0.13760972023010254,
+      "step": 1400
+    },
+    {
+      "epoch": 3.64,
+      "eval_logits/chosen": -2.2316062450408936,
+      "eval_logits/rejected": -2.2267301082611084,
+      "eval_logps/chosen": -34.033653259277344,
+      "eval_logps/rejected": -37.583335876464844,
+      "eval_loss": 2.791294813156128,
+      "eval_rewards/accuracies": 0.5664451718330383,
+      "eval_rewards/chosen": 0.00026977824745699763,
+      "eval_rewards/margins": 0.02028520777821541,
+      "eval_rewards/rejected": -0.020015425980091095,
+      "eval_runtime": 145.9074,
+      "eval_samples_per_second": 2.351,
+      "eval_steps_per_second": 0.295,
+      "step": 1400
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 1.0775199359171346e-07,
+      "logits/chosen": -2.0081191062927246,
+      "logits/rejected": -2.003680944442749,
+      "logps/chosen": -32.60419464111328,
+      "logps/rejected": -29.99764060974121,
+      "loss": 0.3034,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.3115007281303406,
+      "rewards/margins": 0.4444548487663269,
+      "rewards/rejected": -0.1329541653394699,
+      "step": 1410
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 9.191080703056604e-08,
+      "logits/chosen": -1.9665706157684326,
+      "logits/rejected": -1.9677642583847046,
+      "logps/chosen": -32.38178253173828,
+      "logps/rejected": -35.331478118896484,
+      "loss": 0.4047,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2949289083480835,
+      "rewards/margins": 0.41717034578323364,
+      "rewards/rejected": -0.12224143743515015,
+      "step": 1420
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 7.730678442730539e-08,
+      "logits/chosen": -1.9199825525283813,
+      "logits/rejected": -1.9131149053573608,
+      "logps/chosen": -33.19044876098633,
+      "logps/rejected": -37.124359130859375,
+      "loss": 0.3234,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.28539571166038513,
+      "rewards/margins": 0.4158816337585449,
+      "rewards/rejected": -0.13048596680164337,
+      "step": 1430
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 6.394742864787806e-08,
+      "logits/chosen": -1.931983232498169,
+      "logits/rejected": -1.9264585971832275,
+      "logps/chosen": -28.360937118530273,
+      "logps/rejected": -32.15396499633789,
+      "loss": 0.5022,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.285691499710083,
+      "rewards/margins": 0.4126841127872467,
+      "rewards/rejected": -0.12699264287948608,
+      "step": 1440
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 5.183960310644748e-08,
+      "logits/chosen": -1.9492918252944946,
+      "logits/rejected": -1.9388021230697632,
+      "logps/chosen": -31.5377140045166,
+      "logps/rejected": -35.85572052001953,
+      "loss": 0.3368,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2831452488899231,
+      "rewards/margins": 0.4542534351348877,
+      "rewards/rejected": -0.1711081564426422,
+      "step": 1450
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 4.098952823928693e-08,
+      "logits/chosen": -1.9281123876571655,
+      "logits/rejected": -1.9251676797866821,
+      "logps/chosen": -32.314857482910156,
+      "logps/rejected": -31.260883331298828,
+      "loss": 0.4229,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.29847532510757446,
+      "rewards/margins": 0.40949302911758423,
+      "rewards/rejected": -0.11101765930652618,
+      "step": 1460
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 3.1402778309014284e-08,
+      "logits/chosen": -1.989189863204956,
+      "logits/rejected": -1.9958044290542603,
+      "logps/chosen": -31.037267684936523,
+      "logps/rejected": -33.406105041503906,
+      "loss": 0.3242,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.3095727562904358,
+      "rewards/margins": 0.44267648458480835,
+      "rewards/rejected": -0.13310377299785614,
+      "step": 1470
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 2.3084278540791427e-08,
+      "logits/chosen": -1.9884917736053467,
+      "logits/rejected": -1.9990545511245728,
+      "logps/chosen": -30.706201553344727,
+      "logps/rejected": -30.090484619140625,
+      "loss": 0.339,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.29671651124954224,
+      "rewards/margins": 0.4352938234806061,
+      "rewards/rejected": -0.13857729732990265,
+      "step": 1480
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 1.6038302591975807e-08,
+      "logits/chosen": -1.9214226007461548,
+      "logits/rejected": -1.9142558574676514,
+      "logps/chosen": -32.70989227294922,
+      "logps/rejected": -32.67903518676758,
+      "loss": 0.3616,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.2839769423007965,
+      "rewards/margins": 0.4245426058769226,
+      "rewards/rejected": -0.1405656784772873,
+      "step": 1490
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 1.0268470356514237e-08,
+      "logits/chosen": -1.9736502170562744,
+      "logits/rejected": -1.9704258441925049,
+      "logps/chosen": -32.689056396484375,
+      "logps/rejected": -33.725563049316406,
+      "loss": 0.3309,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.28095489740371704,
+      "rewards/margins": 0.42055588960647583,
+      "rewards/rejected": -0.1396009922027588,
+      "step": 1500
+    },
+    {
+      "epoch": 3.9,
+      "eval_logits/chosen": -2.231811761856079,
+      "eval_logits/rejected": -2.226945400238037,
+      "eval_logps/chosen": -34.02287292480469,
+      "eval_logps/rejected": -37.57923889160156,
+      "eval_loss": 2.76727557182312,
+      "eval_rewards/accuracies": 0.5722591280937195,
+      "eval_rewards/chosen": 0.003503018757328391,
+      "eval_rewards/margins": 0.022289730608463287,
+      "eval_rewards/rejected": -0.018786713480949402,
+      "eval_runtime": 145.8047,
+      "eval_samples_per_second": 2.352,
+      "eval_steps_per_second": 0.295,
+      "step": 1500
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 5.777746105209147e-09,
+      "logits/chosen": -2.0533382892608643,
+      "logits/rejected": -2.053973436355591,
+      "logps/chosen": -28.94424819946289,
+      "logps/rejected": -33.25762176513672,
+      "loss": 0.5224,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 0.26160866022109985,
+      "rewards/margins": 0.4167584478855133,
+      "rewards/rejected": -0.15514974296092987,
+      "step": 1510
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 2.5684369628148352e-09,
+      "logits/chosen": -1.9069092273712158,
+      "logits/rejected": -1.9067671298980713,
+      "logps/chosen": -32.138919830322266,
+      "logps/rejected": -34.360389709472656,
+      "loss": 0.4383,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.2708854377269745,
+      "rewards/margins": 0.41688376665115356,
+      "rewards/rejected": -0.14599832892417908,
+      "step": 1520
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 6.421917227455999e-10,
+      "logits/chosen": -2.0585055351257324,
+      "logits/rejected": -2.055807590484619,
+      "logps/chosen": -30.587963104248047,
+      "logps/rejected": -31.973073959350586,
+      "loss": 0.4131,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2658289968967438,
+      "rewards/margins": 0.41265568137168884,
+      "rewards/rejected": -0.14682674407958984,
+      "step": 1530
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0,
+      "logits/chosen": -2.041874885559082,
+      "logits/rejected": -2.042999744415283,
+      "logps/chosen": -29.7122859954834,
+      "logps/rejected": -30.280029296875,
+      "loss": 0.2918,
+      "rewards/accuracies": 0.98333340883255,
+      "rewards/chosen": 0.27229610085487366,
+      "rewards/margins": 0.4192503094673157,
+      "rewards/rejected": -0.14695420861244202,
+      "step": 1540
+    },
+    {
+      "epoch": 4.0,
+      "step": 1540,
       "total_flos": 0.0,
+      "train_loss": 0.5763176552661053,
+      "train_runtime": 10799.143,
+      "train_samples_per_second": 1.14,
+      "train_steps_per_second": 0.143
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1540,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 4,