Model save

Browse files

Files changed (5) hide show

README.md +14 -16
adapter_model.safetensors +1 -1
all_results.json +3 -16
train_results.json +3 -3
trainer_state.json +415 -415

README.md CHANGED Viewed

@@ -1,13 +1,11 @@
 ---
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: norallm/normistral-7b-warm
-datasets:
-- hugodk-sch/aftonposten_title_prefs
 model-index:
 - name: ap-normistral-7b-align-scan
   results: []
@@ -18,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # ap-normistral-7b-align-scan
-This model is a fine-tuned version of [data/ap-normistral-7b-sft-qlora](https://huggingface.co/data/ap-normistral-7b-sft-qlora) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9490
-- Rewards/chosen: -0.0676
-- Rewards/rejected: -0.1475
-- Rewards/accuracies: 0.5689
-- Rewards/margins: 0.0800
-- Logps/rejected: -36.2616
-- Logps/chosen: -32.5783
-- Logits/rejected: 98.6787
-- Logits/chosen: 98.6962
 ## Model description
@@ -63,9 +61,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.9172        | 0.26  | 100  | 0.9737          | -0.0075        | -0.0499          | 0.5104             | 0.0424          | -36.0662       | -32.4581     | 98.7856         | 98.7961       |
-| 0.6396        | 0.52  | 200  | 0.9232          | -0.0626        | -0.1726          | 0.5835             | 0.1100          | -36.3118       | -32.5684     | 98.6629         | 98.6844       |
-| 0.6566        | 0.78  | 300  | 0.9383          | -0.0593        | -0.1492          | 0.5457             | 0.0899          | -36.2648       | -32.5617     | 98.6998         | 98.7178       |
 ### Framework versions

 ---
+license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: norallm/normistral-7b-warm
 model-index:
 - name: ap-normistral-7b-align-scan
   results: []
 # ap-normistral-7b-align-scan
+This model is a fine-tuned version of [norallm/normistral-7b-warm](https://huggingface.co/norallm/normistral-7b-warm) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9400
+- Rewards/chosen: -0.0802
+- Rewards/rejected: -0.1425
+- Rewards/accuracies: 0.5623
+- Rewards/margins: 0.0624
+- Logps/rejected: -36.6792
+- Logps/chosen: -32.8440
+- Logits/rejected: 98.1900
+- Logits/chosen: 98.2178
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.927         | 0.26  | 100  | 0.9734          | 0.0205         | -0.0061          | 0.5598             | 0.0265          | -35.9968       | -32.3408     | 98.7115         | 98.7190       |
+| 0.7448        | 0.52  | 200  | 0.9482          | -0.0840        | -0.1367          | 0.5307             | 0.0527          | -36.6501       | -32.8631     | 98.2057         | 98.2271       |
+| 0.7402        | 0.78  | 300  | 0.9400          | -0.0802        | -0.1425          | 0.5623             | 0.0624          | -36.6792       | -32.8440     | 98.1900         | 98.2178       |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5175fd4307f8ba6db23d2358c87f9d5f7a884bc0a16cecdf0d24bb63fa8b81fc
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ecba1adfd37920caed007dd68944849eee1bbb832f3af340caac069e57e40a1
 size 671150064

all_results.json CHANGED Viewed

@@ -1,21 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 98.69615173339844,
-    "eval_logits/rejected": 98.67865753173828,
-    "eval_logps/chosen": -32.57830810546875,
-    "eval_logps/rejected": -36.26156234741211,
-    "eval_loss": 0.9490477442741394,
-    "eval_rewards/accuracies": 0.5689368844032288,
-    "eval_rewards/chosen": -0.06756443530321121,
-    "eval_rewards/margins": 0.07995220273733139,
-    "eval_rewards/rejected": -0.1475166231393814,
-    "eval_runtime": 103.72,
-    "eval_samples": 343,
-    "eval_samples_per_second": 3.307,
-    "eval_steps_per_second": 0.415,
-    "train_loss": 0.735349414874981,
-    "train_runtime": 2550.735,
     "train_samples": 3079,
-    "train_samples_per_second": 1.207,
     "train_steps_per_second": 0.151
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.8039178501475941,
+    "train_runtime": 2556.1517,
     "train_samples": 3079,
+    "train_samples_per_second": 1.205,
     "train_steps_per_second": 0.151
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.735349414874981,
-    "train_runtime": 2550.735,
     "train_samples": 3079,
-    "train_samples_per_second": 1.207,
     "train_steps_per_second": 0.151
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.8039178501475941,
+    "train_runtime": 2556.1517,
     "train_samples": 3079,
+    "train_samples_per_second": 1.205,
     "train_steps_per_second": 0.151
 }

trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 65.5,
       "learning_rate": 1.282051282051282e-07,
       "logits/chosen": 88.18099975585938,
       "logits/rejected": 88.25153350830078,
@@ -25,629 +25,629 @@
     },
     {
       "epoch": 0.03,
-      "grad_norm": 54.5,
       "learning_rate": 1.282051282051282e-06,
-      "logits/chosen": 81.0613784790039,
-      "logits/rejected": 80.76800537109375,
-      "logps/chosen": -34.20709228515625,
-      "logps/rejected": -33.1387939453125,
-      "loss": 0.8925,
-      "rewards/accuracies": 0.5416666865348816,
-      "rewards/chosen": 0.017316989600658417,
-      "rewards/margins": 0.10751060396432877,
-      "rewards/rejected": -0.09019361436367035,
       "step": 10
     },
     {
       "epoch": 0.05,
-      "grad_norm": 56.0,
       "learning_rate": 2.564102564102564e-06,
-      "logits/chosen": 80.64421081542969,
-      "logits/rejected": 80.53112030029297,
-      "logps/chosen": -33.46975326538086,
-      "logps/rejected": -30.782833099365234,
-      "loss": 0.8999,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.11007847636938095,
-      "rewards/margins": 0.11275172233581543,
-      "rewards/rejected": -0.002673250390216708,
       "step": 20
     },
     {
       "epoch": 0.08,
-      "grad_norm": 60.75,
       "learning_rate": 3.846153846153847e-06,
-      "logits/chosen": 82.45377349853516,
-      "logits/rejected": 82.48570251464844,
-      "logps/chosen": -33.79710006713867,
-      "logps/rejected": -31.156320571899414,
-      "loss": 1.0372,
-      "rewards/accuracies": 0.42500001192092896,
-      "rewards/chosen": 0.10785794258117676,
-      "rewards/margins": -0.025897562503814697,
-      "rewards/rejected": 0.13375550508499146,
       "step": 30
     },
     {
       "epoch": 0.1,
-      "grad_norm": 47.0,
       "learning_rate": 4.999896948438434e-06,
-      "logits/chosen": 80.95109558105469,
-      "logits/rejected": 80.94834899902344,
-      "logps/chosen": -32.803199768066406,
-      "logps/rejected": -33.15715026855469,
-      "loss": 0.9441,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.1854299008846283,
-      "rewards/margins": 0.07974345237016678,
-      "rewards/rejected": 0.10568644851446152,
       "step": 40
     },
     {
       "epoch": 0.13,
-      "grad_norm": 43.25,
       "learning_rate": 4.987541037542187e-06,
-      "logits/chosen": 78.6640625,
-      "logits/rejected": 78.6778335571289,
-      "logps/chosen": -30.60561180114746,
-      "logps/rejected": -30.74114418029785,
-      "loss": 0.9478,
-      "rewards/accuracies": 0.512499988079071,
-      "rewards/chosen": 0.29981669783592224,
-      "rewards/margins": 0.1337459534406662,
-      "rewards/rejected": 0.16607072949409485,
       "step": 50
     },
     {
       "epoch": 0.16,
-      "grad_norm": 50.5,
       "learning_rate": 4.954691471941119e-06,
-      "logits/chosen": 83.31804656982422,
-      "logits/rejected": 83.37259674072266,
-      "logps/chosen": -30.898645401000977,
-      "logps/rejected": -29.465993881225586,
-      "loss": 0.9771,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.13825830817222595,
-      "rewards/margins": 0.07599552720785141,
-      "rewards/rejected": 0.06226278096437454,
       "step": 60
     },
     {
       "epoch": 0.18,
-      "grad_norm": 62.5,
       "learning_rate": 4.901618883413549e-06,
-      "logits/chosen": 83.98554229736328,
-      "logits/rejected": 84.01966094970703,
-      "logps/chosen": -30.47078514099121,
-      "logps/rejected": -33.03969192504883,
-      "loss": 0.9425,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.0791207104921341,
-      "rewards/margins": 0.08011289685964584,
-      "rewards/rejected": -0.0009921938180923462,
       "step": 70
     },
     {
       "epoch": 0.21,
-      "grad_norm": 55.5,
       "learning_rate": 4.828760511501322e-06,
-      "logits/chosen": 81.63408660888672,
-      "logits/rejected": 81.62284088134766,
-      "logps/chosen": -31.412799835205078,
-      "logps/rejected": -30.981252670288086,
-      "loss": 0.8729,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.046071670949459076,
-      "rewards/margins": 0.1578732579946518,
-      "rewards/rejected": -0.11180160194635391,
       "step": 80
     },
     {
       "epoch": 0.23,
-      "grad_norm": 67.0,
       "learning_rate": 4.7367166013034295e-06,
-      "logits/chosen": 78.38566589355469,
-      "logits/rejected": 78.3572998046875,
-      "logps/chosen": -32.54473114013672,
-      "logps/rejected": -31.261743545532227,
-      "loss": 0.8672,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.04672273248434067,
-      "rewards/margins": 0.2018592804670334,
-      "rewards/rejected": -0.15513655543327332,
       "step": 90
     },
     {
       "epoch": 0.26,
-      "grad_norm": 59.25,
       "learning_rate": 4.626245458345211e-06,
-      "logits/chosen": 83.54986572265625,
-      "logits/rejected": 83.57047271728516,
-      "logps/chosen": -34.15292739868164,
-      "logps/rejected": -31.826343536376953,
-      "loss": 0.9172,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.07603093981742859,
-      "rewards/margins": 0.11392843723297119,
-      "rewards/rejected": -0.0378975048661232,
       "step": 100
     },
     {
       "epoch": 0.26,
-      "eval_logits/chosen": 98.79605865478516,
-      "eval_logits/rejected": 98.78559875488281,
-      "eval_logps/chosen": -32.45810317993164,
-      "eval_logps/rejected": -36.06624221801758,
-      "eval_loss": 0.9737041592597961,
-      "eval_rewards/accuracies": 0.5103820562362671,
-      "eval_rewards/chosen": -0.0074609918519854546,
-      "eval_rewards/margins": 0.042396578937768936,
-      "eval_rewards/rejected": -0.049857571721076965,
-      "eval_runtime": 104.0533,
-      "eval_samples_per_second": 3.296,
-      "eval_steps_per_second": 0.413,
       "step": 100
     },
     {
       "epoch": 0.29,
-      "grad_norm": 68.5,
       "learning_rate": 4.498257201263691e-06,
-      "logits/chosen": 83.77371978759766,
-      "logits/rejected": 83.6593017578125,
-      "logps/chosen": -32.28753662109375,
-      "logps/rejected": -32.78463363647461,
-      "loss": 0.7046,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.3676328957080841,
-      "rewards/margins": 0.43200382590293884,
-      "rewards/rejected": -0.06437097489833832,
       "step": 110
     },
     {
       "epoch": 0.31,
-      "grad_norm": 67.5,
       "learning_rate": 4.353806263777678e-06,
-      "logits/chosen": 83.89173889160156,
-      "logits/rejected": 84.00154113769531,
-      "logps/chosen": -28.253698348999023,
-      "logps/rejected": -35.52687072753906,
-      "loss": 0.7808,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.33794277906417847,
-      "rewards/margins": 0.37180477380752563,
-      "rewards/rejected": -0.03386203199625015,
       "step": 120
     },
     {
       "epoch": 0.34,
-      "grad_norm": 47.5,
       "learning_rate": 4.1940827077152755e-06,
-      "logits/chosen": 81.15254974365234,
-      "logits/rejected": 81.17030334472656,
-      "logps/chosen": -30.407424926757812,
-      "logps/rejected": -32.09453201293945,
-      "loss": 0.8069,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.24996523559093475,
-      "rewards/margins": 0.3314167857170105,
-      "rewards/rejected": -0.08145156502723694,
       "step": 130
     },
     {
       "epoch": 0.36,
-      "grad_norm": 44.5,
       "learning_rate": 4.0204024186666215e-06,
-      "logits/chosen": 82.38260650634766,
-      "logits/rejected": 82.38970184326172,
-      "logps/chosen": -27.169906616210938,
-      "logps/rejected": -33.05832290649414,
-      "loss": 0.7356,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.13870806992053986,
-      "rewards/margins": 0.4561801850795746,
-      "rewards/rejected": -0.3174721598625183,
       "step": 140
     },
     {
       "epoch": 0.39,
-      "grad_norm": 50.5,
       "learning_rate": 3.834196265035119e-06,
-      "logits/chosen": 80.86981201171875,
-      "logits/rejected": 80.84159851074219,
-      "logps/chosen": -28.839962005615234,
-      "logps/rejected": -33.071983337402344,
-      "loss": 0.628,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.2745725214481354,
-      "rewards/margins": 0.5273140668869019,
-      "rewards/rejected": -0.2527415156364441,
       "step": 150
     },
     {
       "epoch": 0.42,
-      "grad_norm": 63.5,
       "learning_rate": 3.636998309800573e-06,
-      "logits/chosen": 82.75099182128906,
-      "logits/rejected": 82.76429748535156,
-      "logps/chosen": -33.66413116455078,
-      "logps/rejected": -30.465320587158203,
-      "loss": 0.7241,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.2363094538450241,
-      "rewards/margins": 0.4926998019218445,
-      "rewards/rejected": -0.2563903033733368,
       "step": 160
     },
     {
       "epoch": 0.44,
-      "grad_norm": 59.0,
       "learning_rate": 3.4304331721118078e-06,
-      "logits/chosen": 83.50555419921875,
-      "logits/rejected": 83.4540786743164,
-      "logps/chosen": -30.95868492126465,
-      "logps/rejected": -32.49937057495117,
-      "loss": 0.758,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.15030263364315033,
-      "rewards/margins": 0.38995999097824097,
-      "rewards/rejected": -0.23965740203857422,
       "step": 170
     },
     {
       "epoch": 0.47,
-      "grad_norm": 35.25,
       "learning_rate": 3.2162026428305436e-06,
-      "logits/chosen": 81.02674865722656,
-      "logits/rejected": 81.00919342041016,
-      "logps/chosen": -30.531005859375,
-      "logps/rejected": -31.705917358398438,
-      "loss": 0.6438,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.3330736756324768,
-      "rewards/margins": 0.6074270606040955,
-      "rewards/rejected": -0.27435341477394104,
       "step": 180
     },
     {
       "epoch": 0.49,
-      "grad_norm": 37.0,
       "learning_rate": 2.996071664294641e-06,
-      "logits/chosen": 82.6941909790039,
-      "logits/rejected": 82.67329406738281,
-      "logps/chosen": -30.421396255493164,
-      "logps/rejected": -30.745235443115234,
-      "loss": 0.8436,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.172510027885437,
-      "rewards/margins": 0.3111144006252289,
-      "rewards/rejected": -0.13860435783863068,
       "step": 190
     },
     {
       "epoch": 0.52,
-      "grad_norm": 35.0,
       "learning_rate": 2.7718537898066833e-06,
-      "logits/chosen": 78.1072006225586,
-      "logits/rejected": 78.06266021728516,
-      "logps/chosen": -33.60405731201172,
-      "logps/rejected": -32.724769592285156,
-      "loss": 0.6396,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.5743416547775269,
-      "rewards/margins": 0.690025269985199,
-      "rewards/rejected": -0.11568355560302734,
       "step": 200
     },
     {
       "epoch": 0.52,
-      "eval_logits/chosen": 98.68441009521484,
-      "eval_logits/rejected": 98.66287994384766,
-      "eval_logps/chosen": -32.568355560302734,
-      "eval_logps/rejected": -36.311798095703125,
-      "eval_loss": 0.9231801629066467,
-      "eval_rewards/accuracies": 0.5834717750549316,
-      "eval_rewards/chosen": -0.06259084492921829,
-      "eval_rewards/margins": 0.11004550755023956,
-      "eval_rewards/rejected": -0.17263635993003845,
-      "eval_runtime": 103.7953,
-      "eval_samples_per_second": 3.305,
       "eval_steps_per_second": 0.414,
       "step": 200
     },
     {
       "epoch": 0.55,
-      "grad_norm": 71.5,
       "learning_rate": 2.5453962426402006e-06,
-      "logits/chosen": 80.72740173339844,
-      "logits/rejected": 80.64077758789062,
-      "logps/chosen": -33.17305374145508,
-      "logps/rejected": -35.227195739746094,
-      "loss": 0.6879,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.3863331079483032,
-      "rewards/margins": 0.5068855881690979,
-      "rewards/rejected": -0.12055248022079468,
       "step": 210
     },
     {
       "epoch": 0.57,
-      "grad_norm": 53.5,
       "learning_rate": 2.3185646976551794e-06,
-      "logits/chosen": 82.8826675415039,
-      "logits/rejected": 82.97186279296875,
-      "logps/chosen": -31.021907806396484,
-      "logps/rejected": -31.140172958374023,
-      "loss": 0.6275,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.46352285146713257,
-      "rewards/margins": 0.6691335439682007,
-      "rewards/rejected": -0.20561063289642334,
       "step": 220
     },
     {
       "epoch": 0.6,
-      "grad_norm": 52.5,
       "learning_rate": 2.0932279108998323e-06,
-      "logits/chosen": 80.10808563232422,
-      "logits/rejected": 80.16153717041016,
-      "logps/chosen": -32.17018508911133,
-      "logps/rejected": -34.35881423950195,
-      "loss": 0.7509,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.31778058409690857,
-      "rewards/margins": 0.49111372232437134,
-      "rewards/rejected": -0.17333316802978516,
       "step": 230
     },
     {
       "epoch": 0.62,
-      "grad_norm": 65.0,
       "learning_rate": 1.8712423238279358e-06,
-      "logits/chosen": 82.51493835449219,
-      "logits/rejected": 82.7935562133789,
-      "logps/chosen": -30.67529296875,
-      "logps/rejected": -31.787023544311523,
-      "loss": 0.5481,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.5063848495483398,
-      "rewards/margins": 0.6338765621185303,
-      "rewards/rejected": -0.12749171257019043,
       "step": 240
     },
     {
       "epoch": 0.65,
-      "grad_norm": 58.75,
       "learning_rate": 1.6544367689701824e-06,
-      "logits/chosen": 81.21392059326172,
-      "logits/rejected": 81.27059173583984,
-      "logps/chosen": -26.883764266967773,
-      "logps/rejected": -30.1818790435791,
-      "loss": 0.7593,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.3560645580291748,
-      "rewards/margins": 0.4966358244419098,
-      "rewards/rejected": -0.1405712366104126,
       "step": 250
     },
     {
       "epoch": 0.68,
-      "grad_norm": 37.5,
       "learning_rate": 1.4445974030621963e-06,
-      "logits/chosen": 78.52751159667969,
-      "logits/rejected": 78.65741729736328,
-      "logps/chosen": -30.363637924194336,
-      "logps/rejected": -36.511695861816406,
-      "loss": 0.5428,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": 0.5986787676811218,
-      "rewards/margins": 0.8037135004997253,
-      "rewards/rejected": -0.20503473281860352,
       "step": 260
     },
     {
       "epoch": 0.7,
-      "grad_norm": 35.0,
       "learning_rate": 1.243452991757889e-06,
-      "logits/chosen": 77.82562255859375,
-      "logits/rejected": 77.8570785522461,
-      "logps/chosen": -30.939916610717773,
-      "logps/rejected": -31.843109130859375,
-      "loss": 0.5855,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.4195052981376648,
-      "rewards/margins": 0.5883487462997437,
-      "rewards/rejected": -0.1688433587551117,
       "step": 270
     },
     {
       "epoch": 0.73,
-      "grad_norm": 64.5,
       "learning_rate": 1.0526606671603523e-06,
-      "logits/chosen": 80.51162719726562,
-      "logits/rejected": 80.30082702636719,
-      "logps/chosen": -30.975082397460938,
-      "logps/rejected": -29.75954818725586,
-      "loss": 0.7416,
       "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.417405366897583,
-      "rewards/margins": 0.4636818468570709,
-      "rewards/rejected": -0.04627644270658493,
       "step": 280
     },
     {
       "epoch": 0.75,
-      "grad_norm": 42.5,
       "learning_rate": 8.737922755071455e-07,
-      "logits/chosen": 80.64032745361328,
-      "logits/rejected": 80.54534149169922,
-      "logps/chosen": -33.00518035888672,
-      "logps/rejected": -32.465091705322266,
-      "loss": 0.5643,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": 0.5495337247848511,
-      "rewards/margins": 0.7736457586288452,
-      "rewards/rejected": -0.22411206364631653,
       "step": 290
     },
     {
       "epoch": 0.78,
-      "grad_norm": 46.75,
       "learning_rate": 7.08321427484816e-07,
-      "logits/chosen": 76.24769592285156,
-      "logits/rejected": 76.3338851928711,
-      "logps/chosen": -32.11992645263672,
-      "logps/rejected": -29.312702178955078,
-      "loss": 0.6566,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.642888605594635,
-      "rewards/margins": 0.748228907585144,
-      "rewards/rejected": -0.1053403839468956,
       "step": 300
     },
     {
       "epoch": 0.78,
-      "eval_logits/chosen": 98.71778106689453,
-      "eval_logits/rejected": 98.69977569580078,
-      "eval_logps/chosen": -32.561683654785156,
-      "eval_logps/rejected": -36.26484298706055,
-      "eval_loss": 0.9383498430252075,
-      "eval_rewards/accuracies": 0.5456810593605042,
-      "eval_rewards/chosen": -0.05925469473004341,
-      "eval_rewards/margins": 0.08990433067083359,
-      "eval_rewards/rejected": -0.1491590440273285,
-      "eval_runtime": 103.9955,
-      "eval_samples_per_second": 3.298,
       "eval_steps_per_second": 0.413,
       "step": 300
     },
     {
       "epoch": 0.81,
-      "grad_norm": 44.25,
       "learning_rate": 5.576113578589035e-07,
-      "logits/chosen": 83.27408599853516,
-      "logits/rejected": 83.30269622802734,
-      "logps/chosen": -30.081134796142578,
-      "logps/rejected": -32.3824348449707,
-      "loss": 0.6944,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.39120084047317505,
-      "rewards/margins": 0.48253631591796875,
-      "rewards/rejected": -0.0913354903459549,
       "step": 310
     },
     {
       "epoch": 0.83,
-      "grad_norm": 30.375,
       "learning_rate": 4.229036944380913e-07,
-      "logits/chosen": 80.83680725097656,
-      "logits/rejected": 80.83592224121094,
-      "logps/chosen": -30.626052856445312,
-      "logps/rejected": -29.309789657592773,
-      "loss": 0.5574,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.48625460267066956,
-      "rewards/margins": 0.6814028024673462,
-      "rewards/rejected": -0.19514815509319305,
       "step": 320
     },
     {
       "epoch": 0.86,
-      "grad_norm": 37.0,
       "learning_rate": 3.053082288996112e-07,
-      "logits/chosen": 78.04208374023438,
-      "logits/rejected": 78.09200286865234,
-      "logps/chosen": -29.09530258178711,
-      "logps/rejected": -32.94050979614258,
-      "loss": 0.5255,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": 0.6286521553993225,
-      "rewards/margins": 0.7814761400222778,
-      "rewards/rejected": -0.15282386541366577,
       "step": 330
     },
     {
       "epoch": 0.88,
-      "grad_norm": 54.75,
       "learning_rate": 2.0579377374915805e-07,
-      "logits/chosen": 82.37565612792969,
-      "logits/rejected": 82.40386962890625,
-      "logps/chosen": -32.312721252441406,
-      "logps/rejected": -33.788272857666016,
-      "loss": 0.7038,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.4497138559818268,
-      "rewards/margins": 0.6595038175582886,
-      "rewards/rejected": -0.2097899168729782,
       "step": 340
     },
     {
       "epoch": 0.91,
-      "grad_norm": 30.0,
       "learning_rate": 1.2518018074041684e-07,
-      "logits/chosen": 81.36256408691406,
-      "logits/rejected": 81.37139892578125,
-      "logps/chosen": -32.320640563964844,
-      "logps/rejected": -33.50237274169922,
-      "loss": 0.5293,
       "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.6615498065948486,
-      "rewards/margins": 0.866836428642273,
-      "rewards/rejected": -0.20528674125671387,
       "step": 350
     },
     {
       "epoch": 0.94,
-      "grad_norm": 44.25,
       "learning_rate": 6.41315865106129e-08,
-      "logits/chosen": 82.83390045166016,
-      "logits/rejected": 82.8671875,
-      "logps/chosen": -28.39254379272461,
-      "logps/rejected": -31.90033531188965,
-      "loss": 0.6161,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.579832911491394,
-      "rewards/margins": 0.7050749659538269,
-      "rewards/rejected": -0.12524208426475525,
       "step": 360
     },
     {
       "epoch": 0.96,
-      "grad_norm": 70.0,
       "learning_rate": 2.3150941078050325e-08,
-      "logits/chosen": 82.28783416748047,
-      "logits/rejected": 82.31135559082031,
-      "logps/chosen": -31.76995849609375,
-      "logps/rejected": -35.398277282714844,
-      "loss": 0.6445,
       "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.553102970123291,
-      "rewards/margins": 0.6975550651550293,
-      "rewards/rejected": -0.14445209503173828,
       "step": 370
     },
     {
       "epoch": 0.99,
-      "grad_norm": 56.5,
       "learning_rate": 2.575864278703266e-09,
-      "logits/chosen": 76.20292663574219,
-      "logits/rejected": 76.08332824707031,
-      "logps/chosen": -29.707965850830078,
-      "logps/rejected": -28.27734375,
-      "loss": 0.7106,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.43407946825027466,
-      "rewards/margins": 0.492464154958725,
-      "rewards/rejected": -0.05838475376367569,
       "step": 380
     },
     {
       "epoch": 1.0,
       "step": 385,
       "total_flos": 0.0,
-      "train_loss": 0.735349414874981,
-      "train_runtime": 2550.735,
-      "train_samples_per_second": 1.207,
       "train_steps_per_second": 0.151
     }
   ],

   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 26.125,
       "learning_rate": 1.282051282051282e-07,
       "logits/chosen": 88.18099975585938,
       "logits/rejected": 88.25153350830078,
     },
     {
       "epoch": 0.03,
+      "grad_norm": 21.75,
       "learning_rate": 1.282051282051282e-06,
+      "logits/chosen": 81.06690979003906,
+      "logits/rejected": 80.77025604248047,
+      "logps/chosen": -34.31000900268555,
+      "logps/rejected": -33.0362548828125,
+      "loss": 0.9981,
+      "rewards/accuracies": 0.4861111044883728,
+      "rewards/chosen": -0.013656922616064548,
+      "rewards/margins": 0.0019124278333038092,
+      "rewards/rejected": -0.015569348819553852,
       "step": 10
     },
     {
       "epoch": 0.05,
+      "grad_norm": 25.125,
       "learning_rate": 2.564102564102564e-06,
+      "logits/chosen": 80.65390014648438,
+      "logits/rejected": 80.54225158691406,
+      "logps/chosen": -33.533935546875,
+      "logps/rejected": -30.82293128967285,
+      "loss": 0.9597,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.0311945378780365,
+      "rewards/margins": 0.04028325527906418,
+      "rewards/rejected": -0.009088722057640553,
       "step": 20
     },
     {
       "epoch": 0.08,
+      "grad_norm": 24.25,
       "learning_rate": 3.846153846153847e-06,
+      "logits/chosen": 82.50422668457031,
+      "logits/rejected": 82.536376953125,
+      "logps/chosen": -33.82068634033203,
+      "logps/rejected": -31.21515464782715,
+      "loss": 1.0033,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.03842673823237419,
+      "rewards/margins": -0.0033095614053308964,
+      "rewards/rejected": 0.04173629730939865,
       "step": 30
     },
     {
       "epoch": 0.1,
+      "grad_norm": 21.25,
       "learning_rate": 4.999896948438434e-06,
+      "logits/chosen": 81.09244537353516,
+      "logits/rejected": 81.08795166015625,
+      "logps/chosen": -32.703147888183594,
+      "logps/rejected": -33.152015686035156,
+      "loss": 0.9509,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.09418319165706635,
+      "rewards/margins": 0.050881147384643555,
+      "rewards/rejected": 0.043302033096551895,
       "step": 40
     },
     {
       "epoch": 0.13,
+      "grad_norm": 16.875,
       "learning_rate": 4.987541037542187e-06,
+      "logits/chosen": 78.85831451416016,
+      "logits/rejected": 78.8629379272461,
+      "logps/chosen": -30.369918823242188,
+      "logps/rejected": -30.639278411865234,
+      "loss": 0.9365,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.16706591844558716,
+      "rewards/margins": 0.08026467263698578,
+      "rewards/rejected": 0.08680125325918198,
       "step": 50
     },
     {
       "epoch": 0.16,
+      "grad_norm": 19.25,
       "learning_rate": 4.954691471941119e-06,
+      "logits/chosen": 83.56826782226562,
+      "logits/rejected": 83.62416076660156,
+      "logps/chosen": -30.741540908813477,
+      "logps/rejected": -29.298175811767578,
+      "loss": 0.9795,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.08672446757555008,
+      "rewards/margins": 0.028255227953195572,
+      "rewards/rejected": 0.05846923589706421,
       "step": 60
     },
     {
       "epoch": 0.18,
+      "grad_norm": 24.125,
       "learning_rate": 4.901618883413549e-06,
+      "logits/chosen": 84.20392608642578,
+      "logits/rejected": 84.23384857177734,
+      "logps/chosen": -30.30936050415039,
+      "logps/rejected": -32.60371398925781,
+      "loss": 1.0229,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.06393321603536606,
+      "rewards/margins": -0.022865157574415207,
+      "rewards/rejected": 0.08679838478565216,
       "step": 70
     },
     {
       "epoch": 0.21,
+      "grad_norm": 23.625,
       "learning_rate": 4.828760511501322e-06,
+      "logits/chosen": 81.97456359863281,
+      "logits/rejected": 81.94981384277344,
+      "logps/chosen": -30.98190689086914,
+      "logps/rejected": -30.73152732849121,
+      "loss": 0.9071,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.10460755974054337,
+      "rewards/margins": 0.09938390552997589,
+      "rewards/rejected": 0.005223660264164209,
       "step": 80
     },
     {
       "epoch": 0.23,
+      "grad_norm": 29.875,
       "learning_rate": 4.7367166013034295e-06,
+      "logits/chosen": 78.75807189941406,
+      "logits/rejected": 78.72810363769531,
+      "logps/chosen": -32.24687957763672,
+      "logps/rejected": -31.013330459594727,
+      "loss": 0.9168,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.07826016843318939,
+      "rewards/margins": 0.09063171595335007,
+      "rewards/rejected": -0.012371541932225227,
       "step": 90
     },
     {
       "epoch": 0.26,
+      "grad_norm": 25.375,
       "learning_rate": 4.626245458345211e-06,
+      "logits/chosen": 83.73965454101562,
+      "logits/rejected": 83.75724792480469,
+      "logps/chosen": -33.909358978271484,
+      "logps/rejected": -31.719879150390625,
+      "loss": 0.927,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.0791260302066803,
+      "rewards/margins": 0.07299245893955231,
+      "rewards/rejected": 0.006133575923740864,
       "step": 100
     },
     {
       "epoch": 0.26,
+      "eval_logits/chosen": 98.71903228759766,
+      "eval_logits/rejected": 98.71150207519531,
+      "eval_logps/chosen": -32.34075927734375,
+      "eval_logps/rejected": -35.99679183959961,
+      "eval_loss": 0.9733805060386658,
+      "eval_rewards/accuracies": 0.5598006844520569,
+      "eval_rewards/chosen": 0.0204838328063488,
+      "eval_rewards/margins": 0.026536403223872185,
+      "eval_rewards/rejected": -0.006052570417523384,
+      "eval_runtime": 104.2721,
+      "eval_samples_per_second": 3.289,
+      "eval_steps_per_second": 0.412,
       "step": 100
     },
     {
       "epoch": 0.29,
+      "grad_norm": 28.5,
       "learning_rate": 4.498257201263691e-06,
+      "logits/chosen": 83.88168334960938,
+      "logits/rejected": 83.75785827636719,
+      "logps/chosen": -32.253421783447266,
+      "logps/rejected": -32.89667510986328,
+      "loss": 0.8099,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.15387704968452454,
+      "rewards/margins": 0.202034592628479,
+      "rewards/rejected": -0.04815753549337387,
       "step": 110
     },
     {
       "epoch": 0.31,
+      "grad_norm": 26.25,
       "learning_rate": 4.353806263777678e-06,
+      "logits/chosen": 83.8781967163086,
+      "logits/rejected": 83.98338317871094,
+      "logps/chosen": -28.098907470703125,
+      "logps/rejected": -35.39207077026367,
+      "loss": 0.8496,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.1661352962255478,
+      "rewards/margins": 0.1527193784713745,
+      "rewards/rejected": 0.013415923342108727,
       "step": 120
     },
     {
       "epoch": 0.34,
+      "grad_norm": 18.875,
       "learning_rate": 4.1940827077152755e-06,
+      "logits/chosen": 81.01908111572266,
+      "logits/rejected": 81.05055236816406,
+      "logps/chosen": -30.180002212524414,
+      "logps/rejected": -31.972553253173828,
+      "loss": 0.8597,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.14547115564346313,
+      "rewards/margins": 0.15365630388259888,
+      "rewards/rejected": -0.008185150101780891,
       "step": 130
     },
     {
       "epoch": 0.36,
+      "grad_norm": 22.375,
       "learning_rate": 4.0204024186666215e-06,
+      "logits/chosen": 81.88218688964844,
+      "logits/rejected": 81.89274597167969,
+      "logps/chosen": -26.96360206604004,
+      "logps/rejected": -32.96726608276367,
+      "loss": 0.803,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.0967448502779007,
+      "rewards/margins": 0.20552262663841248,
+      "rewards/rejected": -0.10877779871225357,
       "step": 140
     },
     {
       "epoch": 0.39,
+      "grad_norm": 24.375,
       "learning_rate": 3.834196265035119e-06,
+      "logits/chosen": 80.27394104003906,
+      "logits/rejected": 80.23723602294922,
+      "logps/chosen": -28.884967803955078,
+      "logps/rejected": -33.30558776855469,
+      "loss": 0.77,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.10082833468914032,
+      "rewards/margins": 0.2486453801393509,
+      "rewards/rejected": -0.14781701564788818,
       "step": 150
     },
     {
       "epoch": 0.42,
+      "grad_norm": 26.75,
       "learning_rate": 3.636998309800573e-06,
+      "logits/chosen": 81.85964965820312,
+      "logits/rejected": 81.88619232177734,
+      "logps/chosen": -34.064693450927734,
+      "logps/rejected": -30.97774887084961,
+      "loss": 0.8017,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.014411324635148048,
+      "rewards/margins": 0.21945340931415558,
+      "rewards/rejected": -0.20504209399223328,
       "step": 160
     },
     {
       "epoch": 0.44,
+      "grad_norm": 26.5,
       "learning_rate": 3.4304331721118078e-06,
+      "logits/chosen": 82.6593246459961,
+      "logits/rejected": 82.60637664794922,
+      "logps/chosen": -31.141841888427734,
+      "logps/rejected": -33.009368896484375,
+      "loss": 0.8017,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.023489754647016525,
+      "rewards/margins": 0.22135159373283386,
+      "rewards/rejected": -0.19786186516284943,
       "step": 170
     },
     {
       "epoch": 0.47,
+      "grad_norm": 20.0,
       "learning_rate": 3.2162026428305436e-06,
+      "logits/chosen": 80.07731628417969,
+      "logits/rejected": 80.05589294433594,
+      "logps/chosen": -30.7539119720459,
+      "logps/rejected": -32.01999282836914,
+      "loss": 0.7558,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.08864770829677582,
+      "rewards/margins": 0.2612043023109436,
+      "rewards/rejected": -0.1725565642118454,
       "step": 180
     },
     {
       "epoch": 0.49,
+      "grad_norm": 14.8125,
       "learning_rate": 2.996071664294641e-06,
+      "logits/chosen": 81.69454193115234,
+      "logits/rejected": 81.68315887451172,
+      "logps/chosen": -30.46109962463379,
+      "logps/rejected": -31.09275245666504,
+      "loss": 0.8327,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.06106363609433174,
+      "rewards/margins": 0.18600967526435852,
+      "rewards/rejected": -0.12494603544473648,
       "step": 190
     },
     {
       "epoch": 0.52,
+      "grad_norm": 21.125,
       "learning_rate": 2.7718537898066833e-06,
+      "logits/chosen": 76.97463989257812,
+      "logits/rejected": 76.91825866699219,
+      "logps/chosen": -34.04479217529297,
+      "logps/rejected": -33.270973205566406,
+      "loss": 0.7448,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.14158903062343597,
+      "rewards/margins": 0.2971034646034241,
+      "rewards/rejected": -0.1555144339799881,
       "step": 200
     },
     {
       "epoch": 0.52,
+      "eval_logits/chosen": 98.2271499633789,
+      "eval_logits/rejected": 98.20570373535156,
+      "eval_logps/chosen": -32.86313247680664,
+      "eval_logps/rejected": -36.650115966796875,
+      "eval_loss": 0.9481998085975647,
+      "eval_rewards/accuracies": 0.5307309031486511,
+      "eval_rewards/chosen": -0.08399129658937454,
+      "eval_rewards/margins": 0.05272620916366577,
+      "eval_rewards/rejected": -0.13671749830245972,
+      "eval_runtime": 103.8483,
+      "eval_samples_per_second": 3.303,
       "eval_steps_per_second": 0.414,
       "step": 200
     },
     {
       "epoch": 0.55,
+      "grad_norm": 34.0,
       "learning_rate": 2.5453962426402006e-06,
+      "logits/chosen": 79.6450424194336,
+      "logits/rejected": 79.561767578125,
+      "logps/chosen": -33.472808837890625,
+      "logps/rejected": -35.81511688232422,
+      "loss": 0.7697,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.09458215534687042,
+      "rewards/margins": 0.2603868544101715,
+      "rewards/rejected": -0.1658046841621399,
       "step": 210
     },
     {
       "epoch": 0.57,
+      "grad_norm": 24.0,
       "learning_rate": 2.3185646976551794e-06,
+      "logits/chosen": 81.76014709472656,
+      "logits/rejected": 81.84996795654297,
+      "logps/chosen": -31.052398681640625,
+      "logps/rejected": -31.682384490966797,
+      "loss": 0.681,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.17931082844734192,
+      "rewards/margins": 0.3699965178966522,
+      "rewards/rejected": -0.1906857192516327,
       "step": 220
     },
     {
       "epoch": 0.6,
+      "grad_norm": 26.625,
       "learning_rate": 2.0932279108998323e-06,
+      "logits/chosen": 78.84847259521484,
+      "logits/rejected": 78.89868927001953,
+      "logps/chosen": -32.36001205444336,
+      "logps/rejected": -34.869354248046875,
+      "loss": 0.7831,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.08914650976657867,
+      "rewards/margins": 0.26058703660964966,
+      "rewards/rejected": -0.17144052684307098,
       "step": 230
     },
     {
       "epoch": 0.62,
+      "grad_norm": 26.125,
       "learning_rate": 1.8712423238279358e-06,
+      "logits/chosen": 81.05337524414062,
+      "logits/rejected": 81.3609848022461,
+      "logps/chosen": -30.954391479492188,
+      "logps/rejected": -32.368465423583984,
+      "loss": 0.7122,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.14673486351966858,
+      "rewards/margins": 0.3140195310115814,
+      "rewards/rejected": -0.16728468239307404,
       "step": 240
     },
     {
       "epoch": 0.65,
+      "grad_norm": 22.375,
       "learning_rate": 1.6544367689701824e-06,
+      "logits/chosen": 79.7140884399414,
+      "logits/rejected": 79.77289581298828,
+      "logps/chosen": -27.334728240966797,
+      "logps/rejected": -30.74212646484375,
+      "loss": 0.8141,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.05223376676440239,
+      "rewards/margins": 0.22051122784614563,
+      "rewards/rejected": -0.16827745735645294,
       "step": 250
     },
     {
       "epoch": 0.68,
+      "grad_norm": 20.5,
       "learning_rate": 1.4445974030621963e-06,
+      "logits/chosen": 76.9362564086914,
+      "logits/rejected": 77.0797119140625,
+      "logps/chosen": -30.7308292388916,
+      "logps/rejected": -37.249969482421875,
+      "loss": 0.6632,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.1660328060388565,
+      "rewards/margins": 0.3957008719444275,
+      "rewards/rejected": -0.2296680212020874,
       "step": 260
     },
     {
       "epoch": 0.7,
+      "grad_norm": 23.625,
       "learning_rate": 1.243452991757889e-06,
+      "logits/chosen": 76.16326904296875,
+      "logits/rejected": 76.19123840332031,
+      "logps/chosen": -31.115991592407227,
+      "logps/rejected": -32.44744110107422,
+      "loss": 0.709,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.13258597254753113,
+      "rewards/margins": 0.32099050283432007,
+      "rewards/rejected": -0.18840453028678894,
       "step": 270
     },
     {
       "epoch": 0.73,
+      "grad_norm": 35.5,
       "learning_rate": 1.0526606671603523e-06,
+      "logits/chosen": 79.00858306884766,
+      "logits/rejected": 78.7801513671875,
+      "logps/chosen": -31.33221435546875,
+      "logps/rejected": -30.144094467163086,
+      "loss": 0.8422,
       "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.09553596377372742,
+      "rewards/margins": 0.19095517694950104,
+      "rewards/rejected": -0.09541920572519302,
       "step": 280
     },
     {
       "epoch": 0.75,
+      "grad_norm": 23.375,
       "learning_rate": 8.737922755071455e-07,
+      "logits/chosen": 79.1707763671875,
+      "logits/rejected": 79.09210205078125,
+      "logps/chosen": -33.15503692626953,
+      "logps/rejected": -33.348018646240234,
+      "loss": 0.611,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": 0.18984279036521912,
+      "rewards/margins": 0.45607319474220276,
+      "rewards/rejected": -0.26623034477233887,
       "step": 290
     },
     {
       "epoch": 0.78,
+      "grad_norm": 23.5,
       "learning_rate": 7.08321427484816e-07,
+      "logits/chosen": 74.80469512939453,
+      "logits/rejected": 74.91273498535156,
+      "logps/chosen": -32.506813049316406,
+      "logps/rejected": -29.802093505859375,
+      "loss": 0.7402,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.1797788441181183,
+      "rewards/margins": 0.3197931945323944,
+      "rewards/rejected": -0.14001430571079254,
       "step": 300
     },
     {
       "epoch": 0.78,
+      "eval_logits/chosen": 98.21781921386719,
+      "eval_logits/rejected": 98.18999481201172,
+      "eval_logps/chosen": -32.84402084350586,
+      "eval_logps/rejected": -36.679203033447266,
+      "eval_loss": 0.9399670362472534,
+      "eval_rewards/accuracies": 0.5622923374176025,
+      "eval_rewards/chosen": -0.08016957342624664,
+      "eval_rewards/margins": 0.062365565448999405,
+      "eval_rewards/rejected": -0.14253515005111694,
+      "eval_runtime": 104.0457,
+      "eval_samples_per_second": 3.297,
       "eval_steps_per_second": 0.413,
       "step": 300
     },
     {
       "epoch": 0.81,
+      "grad_norm": 23.25,
       "learning_rate": 5.576113578589035e-07,
+      "logits/chosen": 82.0827865600586,
+      "logits/rejected": 82.1087417602539,
+      "logps/chosen": -30.205184936523438,
+      "logps/rejected": -33.123497009277344,
+      "loss": 0.7347,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.13166961073875427,
+      "rewards/margins": 0.31641754508018494,
+      "rewards/rejected": -0.18474793434143066,
       "step": 310
     },
     {
       "epoch": 0.83,
+      "grad_norm": 24.375,
       "learning_rate": 4.229036944380913e-07,
+      "logits/chosen": 79.43605041503906,
+      "logits/rejected": 79.44461822509766,
+      "logps/chosen": -30.739145278930664,
+      "logps/rejected": -29.764511108398438,
+      "loss": 0.683,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.1718827486038208,
+      "rewards/margins": 0.3408864438533783,
+      "rewards/rejected": -0.1690036654472351,
       "step": 320
     },
     {
       "epoch": 0.86,
+      "grad_norm": 18.375,
       "learning_rate": 3.053082288996112e-07,
+      "logits/chosen": 76.54524230957031,
+      "logits/rejected": 76.5948257446289,
+      "logps/chosen": -29.108013153076172,
+      "logps/rejected": -33.65383529663086,
+      "loss": 0.5952,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.2489181011915207,
+      "rewards/margins": 0.4527127742767334,
+      "rewards/rejected": -0.2037946879863739,
       "step": 330
     },
     {
       "epoch": 0.88,
+      "grad_norm": 27.25,
       "learning_rate": 2.0579377374915805e-07,
+      "logits/chosen": 80.96257781982422,
+      "logits/rejected": 81.00981140136719,
+      "logps/chosen": -32.56684112548828,
+      "logps/rejected": -34.382102966308594,
+      "loss": 0.7363,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.1290624588727951,
+      "rewards/margins": 0.3317454755306244,
+      "rewards/rejected": -0.2026829719543457,
       "step": 340
     },
     {
       "epoch": 0.91,
+      "grad_norm": 22.875,
       "learning_rate": 1.2518018074041684e-07,
+      "logits/chosen": 79.97700500488281,
+      "logits/rejected": 79.99113464355469,
+      "logps/chosen": -32.53782272338867,
+      "logps/rejected": -34.063255310058594,
+      "loss": 0.6574,
       "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.22118382155895233,
+      "rewards/margins": 0.41547471284866333,
+      "rewards/rejected": -0.1942909061908722,
       "step": 350
     },
     {
       "epoch": 0.94,
+      "grad_norm": 21.75,
       "learning_rate": 6.41315865106129e-08,
+      "logits/chosen": 81.52592468261719,
+      "logits/rejected": 81.56230163574219,
+      "logps/chosen": -28.674850463867188,
+      "logps/rejected": -32.256248474121094,
+      "loss": 0.7516,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.1754719465970993,
+      "rewards/margins": 0.29675185680389404,
+      "rewards/rejected": -0.12127991020679474,
       "step": 360
     },
     {
       "epoch": 0.96,
+      "grad_norm": 21.25,
       "learning_rate": 2.3150941078050325e-08,
+      "logits/chosen": 80.93915557861328,
+      "logits/rejected": 80.9583740234375,
+      "logps/chosen": -32.185455322265625,
+      "logps/rejected": -36.000953674316406,
+      "loss": 0.7515,
       "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.13814154267311096,
+      "rewards/margins": 0.31645822525024414,
+      "rewards/rejected": -0.1783166527748108,
       "step": 370
     },
     {
       "epoch": 0.99,
+      "grad_norm": 23.875,
       "learning_rate": 2.575864278703266e-09,
+      "logits/chosen": 74.74893951416016,
+      "logits/rejected": 74.6153564453125,
+      "logps/chosen": -30.02016258239746,
+      "logps/rejected": -29.047134399414062,
+      "loss": 0.751,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.11119310557842255,
+      "rewards/margins": 0.28850510716438293,
+      "rewards/rejected": -0.1773119866847992,
       "step": 380
     },
     {
       "epoch": 1.0,
       "step": 385,
       "total_flos": 0.0,
+      "train_loss": 0.8039178501475941,
+      "train_runtime": 2556.1517,
+      "train_samples_per_second": 1.205,
       "train_steps_per_second": 0.151
     }
   ],