Model save

Browse files

Files changed (5) hide show

README.md +14 -16
adapter_model.safetensors +1 -1
all_results.json +2 -15
train_results.json +2 -2
trainer_state.json +414 -414

README.md CHANGED Viewed

@@ -1,13 +1,11 @@
 ---
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: norallm/normistral-7b-warm
-datasets:
-- hugodk-sch/aftonposten_title_prefs
 model-index:
 - name: ap-normistral-7b-align-scan
   results: []
@@ -18,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # ap-normistral-7b-align-scan
-This model is a fine-tuned version of [data/ap-normistral-7b-sft-qlora](https://huggingface.co/data/ap-normistral-7b-sft-qlora) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6762
-- Rewards/chosen: -0.0561
-- Rewards/rejected: -0.0991
-- Rewards/accuracies: 0.5889
-- Rewards/margins: 0.0431
-- Logps/rejected: -36.9578
-- Logps/chosen: -33.0039
-- Logits/rejected: 97.9360
-- Logits/chosen: 97.9657
 ## Model description
@@ -63,9 +61,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6795        | 0.26  | 100  | 0.6967          | 0.0004         | 0.0027           | 0.4846             | -0.0023         | -35.9393       | -32.4388     | 98.7026         | 98.7111       |
-| 0.6355        | 0.52  | 200  | 0.6793          | -0.0461        | -0.0803          | 0.5835             | 0.0342          | -36.7700       | -32.9042     | 98.1082         | 98.1292       |
-| 0.6306        | 0.78  | 300  | 0.6733          | -0.0561        | -0.1040          | 0.6121             | 0.0480          | -37.0066       | -33.0038     | 97.9574         | 97.9847       |
 ### Framework versions

 ---
+license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: norallm/normistral-7b-warm
 model-index:
 - name: ap-normistral-7b-align-scan
   results: []
 # ap-normistral-7b-align-scan
+This model is a fine-tuned version of [norallm/normistral-7b-warm](https://huggingface.co/norallm/normistral-7b-warm) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7744
+- Rewards/chosen: -0.0855
+- Rewards/rejected: -0.2061
+- Rewards/accuracies: 0.5428
+- Rewards/margins: 0.1206
+- Logps/rejected: -36.2242
+- Logps/chosen: -32.5501
+- Logits/rejected: 98.7517
+- Logits/chosen: 98.7722
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.7017        | 0.26  | 100  | 0.8030          | -0.0408        | -0.0544          | 0.5137             | 0.0136          | -36.0346       | -32.4942     | 98.7637         | 98.7765       |
+| 0.6236        | 0.52  | 200  | 0.7719          | -0.1720        | -0.2931          | 0.5216             | 0.1211          | -36.3329       | -32.6582     | 98.7039         | 98.7271       |
+| 0.5655        | 0.78  | 300  | 0.7744          | -0.0855        | -0.2061          | 0.5428             | 0.1206          | -36.2242       | -32.5501     | 98.7517         | 98.7722       |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abb8258f0683a564df5e8d11b991cc18220933f7c8c67814096c1056b13635b1
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd5aae0188b2a0ac26a7deeeb9849d866486b8ff0df32512de4839b557ca80f2
 size 671150064

all_results.json CHANGED Viewed

@@ -1,20 +1,7 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 97.9656753540039,
-    "eval_logits/rejected": 97.93604278564453,
-    "eval_logps/chosen": -33.003868103027344,
-    "eval_logps/rejected": -36.95783615112305,
-    "eval_loss": 0.6761856079101562,
-    "eval_rewards/accuracies": 0.5888704061508179,
-    "eval_rewards/chosen": -0.05606912076473236,
-    "eval_rewards/margins": 0.04306147247552872,
-    "eval_rewards/rejected": -0.09913058578968048,
-    "eval_runtime": 103.6924,
-    "eval_samples": 343,
-    "eval_samples_per_second": 3.308,
-    "eval_steps_per_second": 0.415,
-    "train_loss": 0.6461187455561254,
-    "train_runtime": 2556.0398,
     "train_samples": 3079,
     "train_samples_per_second": 1.205,
     "train_steps_per_second": 0.151

 {
     "epoch": 1.0,
+    "train_loss": 0.6050039254225694,
+    "train_runtime": 2556.17,
     "train_samples": 3079,
     "train_samples_per_second": 1.205,
     "train_steps_per_second": 0.151

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6461187455561254,
-    "train_runtime": 2556.0398,
     "train_samples": 3079,
     "train_samples_per_second": 1.205,
     "train_steps_per_second": 0.151

 {
     "epoch": 1.0,
+    "train_loss": 0.6050039254225694,
+    "train_runtime": 2556.17,
     "train_samples": 3079,
     "train_samples_per_second": 1.205,
     "train_steps_per_second": 0.151

trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 6.53125,
       "learning_rate": 1.282051282051282e-07,
       "logits/chosen": 88.18099975585938,
       "logits/rejected": 88.25153350830078,
@@ -25,628 +25,628 @@
     },
     {
       "epoch": 0.03,
-      "grad_norm": 5.375,
       "learning_rate": 1.282051282051282e-06,
-      "logits/chosen": 81.08163452148438,
-      "logits/rejected": 80.7850341796875,
-      "logps/chosen": -34.20207977294922,
-      "logps/rejected": -33.01838684082031,
-      "loss": 0.6889,
-      "rewards/accuracies": 0.4722222089767456,
-      "rewards/chosen": 0.003964493051171303,
-      "rewards/margins": 0.009962627664208412,
-      "rewards/rejected": -0.005998134613037109,
       "step": 10
     },
     {
       "epoch": 0.05,
-      "grad_norm": 6.03125,
       "learning_rate": 2.564102564102564e-06,
-      "logits/chosen": 80.66960144042969,
-      "logits/rejected": 80.55855560302734,
-      "logps/chosen": -33.57989501953125,
-      "logps/rejected": -30.827892303466797,
-      "loss": 0.6865,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.01100135874003172,
-      "rewards/margins": 0.016041692346334457,
-      "rewards/rejected": -0.005040335468947887,
       "step": 20
     },
     {
       "epoch": 0.08,
-      "grad_norm": 5.875,
       "learning_rate": 3.846153846153847e-06,
-      "logits/chosen": 82.521240234375,
-      "logits/rejected": 82.55521392822266,
-      "logps/chosen": -33.74619674682617,
-      "logps/rejected": -31.233224868774414,
-      "loss": 0.6911,
-      "rewards/accuracies": 0.4749999940395355,
-      "rewards/chosen": 0.02666253224015236,
-      "rewards/margins": 0.007601564284414053,
-      "rewards/rejected": 0.01906096562743187,
       "step": 30
     },
     {
       "epoch": 0.1,
-      "grad_norm": 5.46875,
       "learning_rate": 4.999896948438434e-06,
-      "logits/chosen": 81.10136413574219,
-      "logits/rejected": 81.09754943847656,
-      "logps/chosen": -32.667869567871094,
-      "logps/rejected": -33.15234375,
-      "loss": 0.682,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.05061974376440048,
-      "rewards/margins": 0.02900140918791294,
-      "rewards/rejected": 0.02161833457648754,
       "step": 40
     },
     {
       "epoch": 0.13,
-      "grad_norm": 4.96875,
       "learning_rate": 4.987541037542187e-06,
-      "logits/chosen": 78.831787109375,
-      "logits/rejected": 78.83922576904297,
-      "logps/chosen": -30.56161117553711,
-      "logps/rejected": -30.64150619506836,
-      "loss": 0.6869,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.06436345726251602,
-      "rewards/margins": 0.021185602992773056,
-      "rewards/rejected": 0.043177854269742966,
       "step": 50
     },
     {
       "epoch": 0.16,
-      "grad_norm": 5.09375,
       "learning_rate": 4.954691471941119e-06,
-      "logits/chosen": 83.43026733398438,
-      "logits/rejected": 83.48649597167969,
-      "logps/chosen": -30.803913116455078,
-      "logps/rejected": -29.231754302978516,
-      "loss": 0.6958,
-      "rewards/accuracies": 0.4749999940395355,
-      "rewards/chosen": 0.03712441027164459,
-      "rewards/margins": 0.0012475885450839996,
-      "rewards/rejected": 0.03587682172656059,
       "step": 60
     },
     {
       "epoch": 0.18,
-      "grad_norm": 6.625,
       "learning_rate": 4.901618883413549e-06,
-      "logits/chosen": 84.04580688476562,
-      "logits/rejected": 84.08148193359375,
-      "logps/chosen": -30.23891830444336,
-      "logps/rejected": -32.60674285888672,
-      "loss": 0.6974,
-      "rewards/accuracies": 0.4625000059604645,
-      "rewards/chosen": 0.03901054710149765,
-      "rewards/margins": -0.004085768014192581,
-      "rewards/rejected": 0.04309631139039993,
       "step": 70
     },
     {
       "epoch": 0.21,
-      "grad_norm": 6.1875,
       "learning_rate": 4.828760511501322e-06,
-      "logits/chosen": 81.75585174560547,
-      "logits/rejected": 81.73826599121094,
-      "logps/chosen": -31.039302825927734,
-      "logps/rejected": -30.76405906677246,
-      "loss": 0.6731,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.046564072370529175,
-      "rewards/margins": 0.047205500304698944,
-      "rewards/rejected": -0.0006414322415366769,
       "step": 80
     },
     {
       "epoch": 0.23,
-      "grad_norm": 7.1875,
       "learning_rate": 4.7367166013034295e-06,
-      "logits/chosen": 78.49934387207031,
-      "logits/rejected": 78.46571350097656,
-      "logps/chosen": -32.25204849243164,
-      "logps/rejected": -30.996267318725586,
-      "loss": 0.6747,
       "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.038613028824329376,
-      "rewards/margins": 0.04309249296784401,
-      "rewards/rejected": -0.004479461349546909,
       "step": 90
     },
     {
       "epoch": 0.26,
-      "grad_norm": 6.125,
       "learning_rate": 4.626245458345211e-06,
-      "logits/chosen": 83.57372283935547,
-      "logits/rejected": 83.60108947753906,
-      "logps/chosen": -33.96754455566406,
-      "logps/rejected": -31.743358612060547,
-      "loss": 0.6795,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.0337446853518486,
-      "rewards/margins": 0.033025771379470825,
-      "rewards/rejected": 0.0007189197349362075,
       "step": 100
     },
     {
       "epoch": 0.26,
-      "eval_logits/chosen": 98.71112060546875,
-      "eval_logits/rejected": 98.70260620117188,
-      "eval_logps/chosen": -32.43876647949219,
-      "eval_logps/rejected": -35.93931198120117,
-      "eval_loss": 0.696650505065918,
-      "eval_rewards/accuracies": 0.4846345782279968,
-      "eval_rewards/chosen": 0.0004411655245348811,
-      "eval_rewards/margins": -0.0022806311026215553,
-      "eval_rewards/rejected": 0.00272179557941854,
-      "eval_runtime": 104.2161,
-      "eval_samples_per_second": 3.291,
       "eval_steps_per_second": 0.413,
       "step": 100
     },
     {
       "epoch": 0.29,
-      "grad_norm": 7.03125,
       "learning_rate": 4.498257201263691e-06,
-      "logits/chosen": 83.73343658447266,
-      "logits/rejected": 83.620361328125,
-      "logps/chosen": -32.29249954223633,
-      "logps/rejected": -32.76134490966797,
-      "loss": 0.6562,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.07303053885698318,
-      "rewards/margins": 0.08357587456703186,
-      "rewards/rejected": -0.010545337572693825,
       "step": 110
     },
     {
       "epoch": 0.31,
-      "grad_norm": 6.84375,
       "learning_rate": 4.353806263777678e-06,
-      "logits/chosen": 83.75756072998047,
-      "logits/rejected": 83.86710357666016,
-      "logps/chosen": -28.15452003479004,
-      "logps/rejected": -35.40947723388672,
-      "loss": 0.6604,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.07750620692968369,
-      "rewards/margins": 0.07253950834274292,
-      "rewards/rejected": 0.004966698121279478,
       "step": 120
     },
     {
       "epoch": 0.34,
-      "grad_norm": 4.71875,
       "learning_rate": 4.1940827077152755e-06,
-      "logits/chosen": 80.84075164794922,
-      "logits/rejected": 80.86768341064453,
-      "logps/chosen": -30.288599014282227,
-      "logps/rejected": -32.0759391784668,
       "loss": 0.6608,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.06187562271952629,
-      "rewards/margins": 0.0763070285320282,
-      "rewards/rejected": -0.014431402087211609,
       "step": 130
     },
     {
       "epoch": 0.36,
-      "grad_norm": 5.3125,
       "learning_rate": 4.0204024186666215e-06,
-      "logits/chosen": 81.7759780883789,
-      "logits/rejected": 81.78620910644531,
-      "logps/chosen": -26.95816421508789,
-      "logps/rejected": -33.1744270324707,
-      "loss": 0.6385,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.04891597107052803,
-      "rewards/margins": 0.12402068078517914,
-      "rewards/rejected": -0.07510470598936081,
       "step": 140
     },
     {
       "epoch": 0.39,
-      "grad_norm": 5.78125,
       "learning_rate": 3.834196265035119e-06,
-      "logits/chosen": 80.12449645996094,
-      "logits/rejected": 80.0939712524414,
-      "logps/chosen": -29.01108741760254,
-      "logps/rejected": -33.390743255615234,
-      "loss": 0.6406,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.03780210763216019,
-      "rewards/margins": 0.12022628635168076,
-      "rewards/rejected": -0.08242417871952057,
       "step": 150
     },
     {
       "epoch": 0.42,
-      "grad_norm": 6.9375,
       "learning_rate": 3.636998309800573e-06,
-      "logits/chosen": 81.77169036865234,
-      "logits/rejected": 81.79722595214844,
-      "logps/chosen": -34.082550048828125,
-      "logps/rejected": -30.868389129638672,
-      "loss": 0.653,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.0054204328916966915,
-      "rewards/margins": 0.09700557589530945,
-      "rewards/rejected": -0.09158514440059662,
       "step": 160
     },
     {
       "epoch": 0.44,
-      "grad_norm": 6.8125,
       "learning_rate": 3.4304331721118078e-06,
-      "logits/chosen": 82.42708587646484,
-      "logits/rejected": 82.38101959228516,
-      "logps/chosen": -30.999557495117188,
-      "logps/rejected": -33.025474548339844,
-      "loss": 0.6393,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.025972897186875343,
-      "rewards/margins": 0.1265145242214203,
-      "rewards/rejected": -0.10054163634777069,
       "step": 170
     },
     {
       "epoch": 0.47,
-      "grad_norm": 5.375,
       "learning_rate": 3.2162026428305436e-06,
-      "logits/chosen": 79.67488861083984,
-      "logits/rejected": 79.65385437011719,
-      "logps/chosen": -30.78965187072754,
-      "logps/rejected": -32.08345031738281,
-      "loss": 0.6346,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.04075000807642937,
-      "rewards/margins": 0.1333744376897812,
-      "rewards/rejected": -0.09262441098690033,
       "step": 180
     },
     {
       "epoch": 0.49,
-      "grad_norm": 3.859375,
       "learning_rate": 2.996071664294641e-06,
-      "logits/chosen": 81.18582153320312,
-      "logits/rejected": 81.16909790039062,
-      "logps/chosen": -30.42611312866211,
-      "logps/rejected": -31.0355224609375,
-      "loss": 0.6585,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.03403033688664436,
-      "rewards/margins": 0.09077958762645721,
-      "rewards/rejected": -0.056749243289232254,
       "step": 190
     },
     {
       "epoch": 0.52,
-      "grad_norm": 5.75,
       "learning_rate": 2.7718537898066833e-06,
-      "logits/chosen": 76.43097686767578,
-      "logits/rejected": 76.38182067871094,
-      "logps/chosen": -34.055965423583984,
-      "logps/rejected": -33.20988082885742,
-      "loss": 0.6355,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.06967721879482269,
-      "rewards/margins": 0.1413251906633377,
-      "rewards/rejected": -0.07164796441793442,
       "step": 200
     },
     {
       "epoch": 0.52,
-      "eval_logits/chosen": 98.12921142578125,
-      "eval_logits/rejected": 98.10821533203125,
-      "eval_logps/chosen": -32.90422058105469,
-      "eval_logps/rejected": -36.77000427246094,
-      "eval_loss": 0.6793302893638611,
-      "eval_rewards/accuracies": 0.5834717750549316,
-      "eval_rewards/chosen": -0.04610438272356987,
-      "eval_rewards/margins": 0.03424324095249176,
-      "eval_rewards/rejected": -0.08034762740135193,
-      "eval_runtime": 103.9445,
-      "eval_samples_per_second": 3.3,
       "eval_steps_per_second": 0.414,
       "step": 200
     },
     {
       "epoch": 0.55,
-      "grad_norm": 8.4375,
       "learning_rate": 2.5453962426402006e-06,
-      "logits/chosen": 79.00591278076172,
-      "logits/rejected": 78.91060638427734,
-      "logps/chosen": -33.55596160888672,
-      "logps/rejected": -35.893375396728516,
-      "loss": 0.6418,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.03897558152675629,
-      "rewards/margins": 0.12970347702503204,
-      "rewards/rejected": -0.09072789549827576,
       "step": 210
     },
     {
       "epoch": 0.57,
-      "grad_norm": 6.46875,
       "learning_rate": 2.3185646976551794e-06,
-      "logits/chosen": 81.00145721435547,
-      "logits/rejected": 81.09220886230469,
-      "logps/chosen": -31.351266860961914,
-      "logps/rejected": -31.709590911865234,
-      "loss": 0.6274,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.0597686693072319,
-      "rewards/margins": 0.15783223509788513,
-      "rewards/rejected": -0.09806357324123383,
       "step": 220
     },
     {
       "epoch": 0.6,
-      "grad_norm": 6.25,
       "learning_rate": 2.0932279108998323e-06,
-      "logits/chosen": 78.02706146240234,
-      "logits/rejected": 78.08647155761719,
-      "logps/chosen": -32.611751556396484,
-      "logps/rejected": -34.99976348876953,
-      "loss": 0.6457,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.019399229437112808,
-      "rewards/margins": 0.118160679936409,
-      "rewards/rejected": -0.09876143932342529,
       "step": 230
     },
     {
       "epoch": 0.62,
-      "grad_norm": 6.8125,
       "learning_rate": 1.8712423238279358e-06,
-      "logits/chosen": 80.3001708984375,
-      "logits/rejected": 80.60163879394531,
-      "logps/chosen": -31.092309951782227,
-      "logps/rejected": -32.644691467285156,
-      "loss": 0.6182,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.059575408697128296,
-      "rewards/margins": 0.17084039747714996,
-      "rewards/rejected": -0.11126496642827988,
       "step": 240
     },
     {
       "epoch": 0.65,
-      "grad_norm": 7.0,
       "learning_rate": 1.6544367689701824e-06,
-      "logits/chosen": 78.8541030883789,
-      "logits/rejected": 78.9134750366211,
-      "logps/chosen": -27.58013343811035,
-      "logps/rejected": -30.87213706970215,
-      "loss": 0.6545,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.001576287322677672,
-      "rewards/margins": 0.09871624410152435,
-      "rewards/rejected": -0.09713996946811676,
       "step": 250
     },
     {
       "epoch": 0.68,
-      "grad_norm": 6.09375,
       "learning_rate": 1.4445974030621963e-06,
-      "logits/chosen": 75.93869018554688,
-      "logits/rejected": 76.0858154296875,
-      "logps/chosen": -30.762155532836914,
-      "logps/rejected": -37.70819091796875,
-      "loss": 0.5957,
       "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": 0.07988408207893372,
-      "rewards/margins": 0.24054038524627686,
-      "rewards/rejected": -0.16065633296966553,
       "step": 260
     },
     {
       "epoch": 0.7,
-      "grad_norm": 5.53125,
       "learning_rate": 1.243452991757889e-06,
-      "logits/chosen": 75.10862731933594,
-      "logits/rejected": 75.13311004638672,
-      "logps/chosen": -31.499658584594727,
-      "logps/rejected": -32.65572738647461,
-      "loss": 0.6335,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.027926713228225708,
-      "rewards/margins": 0.14295729994773865,
-      "rewards/rejected": -0.11503058671951294,
       "step": 270
     },
     {
       "epoch": 0.73,
-      "grad_norm": 8.9375,
       "learning_rate": 1.0526606671603523e-06,
-      "logits/chosen": 77.99885559082031,
-      "logits/rejected": 77.7794418334961,
-      "logps/chosen": -31.871845245361328,
-      "logps/rejected": -30.71683692932129,
-      "loss": 0.657,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.0061946348287165165,
-      "rewards/margins": 0.09878946840763092,
-      "rewards/rejected": -0.10498411953449249,
       "step": 280
     },
     {
       "epoch": 0.75,
-      "grad_norm": 5.8125,
       "learning_rate": 8.737922755071455e-07,
-      "logits/chosen": 78.05221557617188,
-      "logits/rejected": 77.97148895263672,
-      "logps/chosen": -33.65934371948242,
-      "logps/rejected": -33.7969856262207,
-      "loss": 0.6008,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.044489990919828415,
-      "rewards/margins": 0.22250187397003174,
-      "rewards/rejected": -0.17801189422607422,
       "step": 290
     },
     {
       "epoch": 0.78,
-      "grad_norm": 6.6875,
       "learning_rate": 7.08321427484816e-07,
-      "logits/chosen": 73.7139892578125,
-      "logits/rejected": 73.8324203491211,
-      "logps/chosen": -32.73633575439453,
-      "logps/rejected": -30.082836151123047,
-      "loss": 0.6306,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.06693719327449799,
-      "rewards/margins": 0.16501857340335846,
-      "rewards/rejected": -0.09808137267827988,
       "step": 300
     },
     {
       "epoch": 0.78,
-      "eval_logits/chosen": 97.9847412109375,
-      "eval_logits/rejected": 97.95744323730469,
-      "eval_logps/chosen": -33.00377655029297,
-      "eval_logps/rejected": -37.00663375854492,
-      "eval_loss": 0.6733371615409851,
-      "eval_rewards/accuracies": 0.6121262311935425,
-      "eval_rewards/chosen": -0.056060198694467545,
-      "eval_rewards/margins": 0.047950610518455505,
-      "eval_rewards/rejected": -0.10401081293821335,
-      "eval_runtime": 103.8262,
-      "eval_samples_per_second": 3.304,
-      "eval_steps_per_second": 0.414,
       "step": 300
     },
     {
       "epoch": 0.81,
-      "grad_norm": 5.65625,
       "learning_rate": 5.576113578589035e-07,
-      "logits/chosen": 81.07884216308594,
-      "logits/rejected": 81.09075164794922,
-      "logps/chosen": -30.61749267578125,
-      "logps/rejected": -33.596153259277344,
-      "loss": 0.6246,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.02460428513586521,
-      "rewards/margins": 0.1642439067363739,
-      "rewards/rejected": -0.13963960111141205,
       "step": 310
     },
     {
       "epoch": 0.83,
-      "grad_norm": 6.25,
       "learning_rate": 4.229036944380913e-07,
-      "logits/chosen": 78.28865814208984,
-      "logits/rejected": 78.29974365234375,
-      "logps/chosen": -30.886798858642578,
-      "logps/rejected": -30.064910888671875,
-      "loss": 0.6141,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.07117630541324615,
-      "rewards/margins": 0.18571846187114716,
-      "rewards/rejected": -0.1145421713590622,
       "step": 320
     },
     {
       "epoch": 0.86,
-      "grad_norm": 6.625,
       "learning_rate": 3.053082288996112e-07,
-      "logits/chosen": 75.30354309082031,
-      "logits/rejected": 75.34764099121094,
-      "logps/chosen": -29.404388427734375,
-      "logps/rejected": -34.069969177246094,
-      "loss": 0.5902,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.09482161700725555,
-      "rewards/margins": 0.23833179473876953,
-      "rewards/rejected": -0.14351019263267517,
       "step": 330
     },
     {
       "epoch": 0.88,
-      "grad_norm": 8.1875,
       "learning_rate": 2.0579377374915805e-07,
-      "logits/chosen": 79.95478820800781,
-      "logits/rejected": 79.99383544921875,
-      "logps/chosen": -32.775882720947266,
-      "logps/rejected": -35.080204010009766,
-      "loss": 0.6075,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.043626897037029266,
-      "rewards/margins": 0.21477791666984558,
-      "rewards/rejected": -0.17115101218223572,
       "step": 340
     },
     {
       "epoch": 0.91,
-      "grad_norm": 6.0625,
       "learning_rate": 1.2518018074041684e-07,
-      "logits/chosen": 78.82893371582031,
-      "logits/rejected": 78.83858489990234,
-      "logps/chosen": -32.75529479980469,
-      "logps/rejected": -34.289024353027344,
-      "loss": 0.6093,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.08884432911872864,
-      "rewards/margins": 0.20856666564941406,
-      "rewards/rejected": -0.11972232908010483,
       "step": 350
     },
     {
       "epoch": 0.94,
-      "grad_norm": 5.625,
       "learning_rate": 6.41315865106129e-08,
-      "logits/chosen": 80.45689392089844,
-      "logits/rejected": 80.4975357055664,
-      "logps/chosen": -28.772647857666016,
-      "logps/rejected": -32.65345764160156,
-      "loss": 0.619,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.07795627415180206,
-      "rewards/margins": 0.17831732332706451,
-      "rewards/rejected": -0.10036104917526245,
       "step": 360
     },
     {
       "epoch": 0.96,
-      "grad_norm": 7.0,
       "learning_rate": 2.3150941078050325e-08,
-      "logits/chosen": 79.93882751464844,
-      "logits/rejected": 79.95525360107422,
-      "logps/chosen": -32.576927185058594,
-      "logps/rejected": -36.53556442260742,
-      "loss": 0.6267,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": 0.02992354705929756,
-      "rewards/margins": 0.1725427806377411,
-      "rewards/rejected": -0.14261923730373383,
       "step": 370
     },
     {
       "epoch": 0.99,
-      "grad_norm": 5.96875,
       "learning_rate": 2.575864278703266e-09,
-      "logits/chosen": 73.57047271728516,
-      "logits/rejected": 73.44520568847656,
-      "logps/chosen": -30.454349517822266,
-      "logps/rejected": -29.29287338256836,
-      "loss": 0.6434,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.012177868746221066,
-      "rewards/margins": 0.12540772557258606,
-      "rewards/rejected": -0.11322984844446182,
       "step": 380
     },
     {
       "epoch": 1.0,
       "step": 385,
       "total_flos": 0.0,
-      "train_loss": 0.6461187455561254,
-      "train_runtime": 2556.0398,
       "train_samples_per_second": 1.205,
       "train_steps_per_second": 0.151
     }

   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 52.25,
       "learning_rate": 1.282051282051282e-07,
       "logits/chosen": 88.18099975585938,
       "logits/rejected": 88.25153350830078,
     },
     {
       "epoch": 0.03,
+      "grad_norm": 40.75,
       "learning_rate": 1.282051282051282e-06,
+      "logits/chosen": 81.06388092041016,
+      "logits/rejected": 80.76617431640625,
+      "logps/chosen": -34.315635681152344,
+      "logps/rejected": -33.083072662353516,
+      "loss": 0.7277,
+      "rewards/accuracies": 0.4305555522441864,
+      "rewards/chosen": -0.05912955477833748,
+      "rewards/margins": 0.04060414060950279,
+      "rewards/rejected": -0.09973368048667908,
       "step": 10
     },
     {
       "epoch": 0.05,
+      "grad_norm": 36.25,
       "learning_rate": 2.564102564102564e-06,
+      "logits/chosen": 80.6710433959961,
+      "logits/rejected": 80.55816650390625,
+      "logps/chosen": -33.6015625,
+      "logps/rejected": -30.793548583984375,
+      "loss": 0.724,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.07067807018756866,
+      "rewards/margins": 0.08352533727884293,
+      "rewards/rejected": -0.012847280129790306,
       "step": 20
     },
     {
       "epoch": 0.08,
+      "grad_norm": 48.0,
       "learning_rate": 3.846153846153847e-06,
+      "logits/chosen": 82.53105163574219,
+      "logits/rejected": 82.56202697753906,
+      "logps/chosen": -33.846534729003906,
+      "logps/rejected": -31.217113494873047,
+      "loss": 0.823,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 0.13303251564502716,
+      "rewards/margins": -0.03234311193227768,
+      "rewards/rejected": 0.16537563502788544,
       "step": 30
     },
     {
       "epoch": 0.1,
+      "grad_norm": 49.0,
       "learning_rate": 4.999896948438434e-06,
+      "logits/chosen": 81.03451538085938,
+      "logits/rejected": 81.03263092041016,
+      "logps/chosen": -32.87987518310547,
+      "logps/rejected": -33.08030700683594,
+      "loss": 0.7898,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.2353484332561493,
+      "rewards/margins": 0.004774211905896664,
+      "rewards/rejected": 0.23057425022125244,
       "step": 40
     },
     {
       "epoch": 0.13,
+      "grad_norm": 37.0,
       "learning_rate": 4.987541037542187e-06,
+      "logits/chosen": 78.62713623046875,
+      "logits/rejected": 78.64068603515625,
+      "logps/chosen": -30.693645477294922,
+      "logps/rejected": -30.871618270874023,
+      "loss": 0.7362,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.40928253531455994,
+      "rewards/margins": 0.24794897437095642,
+      "rewards/rejected": 0.1613335758447647,
       "step": 50
     },
     {
       "epoch": 0.16,
+      "grad_norm": 35.75,
       "learning_rate": 4.954691471941119e-06,
+      "logits/chosen": 83.1414566040039,
+      "logits/rejected": 83.20195007324219,
+      "logps/chosen": -30.973648071289062,
+      "logps/rejected": -29.62088394165039,
+      "loss": 0.7214,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.16120928525924683,
+      "rewards/margins": 0.18549844622612,
+      "rewards/rejected": -0.02428916096687317,
       "step": 60
     },
     {
       "epoch": 0.18,
+      "grad_norm": 72.5,
       "learning_rate": 4.901618883413549e-06,
+      "logits/chosen": 83.78003692626953,
+      "logits/rejected": 83.8111343383789,
+      "logps/chosen": -30.537906646728516,
+      "logps/rejected": -33.126197814941406,
+      "loss": 0.7291,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.07289580255746841,
+      "rewards/margins": 0.14368507266044617,
+      "rewards/rejected": -0.07078926265239716,
       "step": 70
     },
     {
       "epoch": 0.21,
+      "grad_norm": 46.25,
       "learning_rate": 4.828760511501322e-06,
+      "logits/chosen": 81.44255065917969,
+      "logits/rejected": 81.430908203125,
+      "logps/chosen": -31.439010620117188,
+      "logps/rejected": -30.995372772216797,
+      "loss": 0.7039,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": 0.0527455098927021,
+      "rewards/margins": 0.24292418360710144,
+      "rewards/rejected": -0.19017870724201202,
       "step": 80
     },
     {
       "epoch": 0.23,
+      "grad_norm": 61.75,
       "learning_rate": 4.7367166013034295e-06,
+      "logits/chosen": 78.15830993652344,
+      "logits/rejected": 78.127197265625,
+      "logps/chosen": -32.702423095703125,
+      "logps/rejected": -31.252826690673828,
+      "loss": 0.7773,
       "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.0513942614197731,
+      "rewards/margins": 0.18969133496284485,
+      "rewards/rejected": -0.24108560383319855,
       "step": 90
     },
     {
       "epoch": 0.26,
+      "grad_norm": 39.0,
       "learning_rate": 4.626245458345211e-06,
+      "logits/chosen": 83.44832611083984,
+      "logits/rejected": 83.47621154785156,
+      "logps/chosen": -34.1397819519043,
+      "logps/rejected": -31.86690330505371,
+      "loss": 0.7017,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.1321648806333542,
+      "rewards/margins": 0.225250244140625,
+      "rewards/rejected": -0.09308534860610962,
       "step": 100
     },
     {
       "epoch": 0.26,
+      "eval_logits/chosen": 98.7764892578125,
+      "eval_logits/rejected": 98.76370239257812,
+      "eval_logps/chosen": -32.49420166015625,
+      "eval_logps/rejected": -36.03456497192383,
+      "eval_loss": 0.8030149340629578,
+      "eval_rewards/accuracies": 0.5137043595314026,
+      "eval_rewards/chosen": -0.04081834852695465,
+      "eval_rewards/margins": 0.013612199574708939,
+      "eval_rewards/rejected": -0.05443055182695389,
+      "eval_runtime": 104.1164,
+      "eval_samples_per_second": 3.294,
       "eval_steps_per_second": 0.413,
       "step": 100
     },
     {
       "epoch": 0.29,
+      "grad_norm": 48.25,
       "learning_rate": 4.498257201263691e-06,
+      "logits/chosen": 83.67167663574219,
+      "logits/rejected": 83.56147766113281,
+      "logps/chosen": -32.48063659667969,
+      "logps/rejected": -32.763511657714844,
+      "loss": 0.6258,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.43373650312423706,
+      "rewards/margins": 0.5198318362236023,
+      "rewards/rejected": -0.08609537780284882,
       "step": 110
     },
     {
       "epoch": 0.31,
+      "grad_norm": 53.75,
       "learning_rate": 4.353806263777678e-06,
+      "logits/chosen": 83.80461120605469,
+      "logits/rejected": 83.91490173339844,
+      "logps/chosen": -28.273183822631836,
+      "logps/rejected": -35.56282043457031,
+      "loss": 0.5439,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.5251210927963257,
+      "rewards/margins": 0.608059287071228,
+      "rewards/rejected": -0.08293820172548294,
       "step": 120
     },
     {
       "epoch": 0.34,
+      "grad_norm": 28.75,
       "learning_rate": 4.1940827077152755e-06,
+      "logits/chosen": 81.06788635253906,
+      "logits/rejected": 81.09136962890625,
+      "logps/chosen": -30.509033203125,
+      "logps/rejected": -32.07707595825195,
       "loss": 0.6608,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.3186565339565277,
+      "rewards/margins": 0.4350167214870453,
+      "rewards/rejected": -0.11636020243167877,
       "step": 130
     },
     {
       "epoch": 0.36,
+      "grad_norm": 24.875,
       "learning_rate": 4.0204024186666215e-06,
+      "logits/chosen": 82.33757019042969,
+      "logits/rejected": 82.34171295166016,
+      "logps/chosen": -26.971057891845703,
+      "logps/rejected": -32.84387969970703,
+      "loss": 0.5554,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.38101473450660706,
+      "rewards/margins": 0.7174161076545715,
+      "rewards/rejected": -0.33640143275260925,
       "step": 140
     },
     {
       "epoch": 0.39,
+      "grad_norm": 30.125,
       "learning_rate": 3.834196265035119e-06,
+      "logits/chosen": 80.85295104980469,
+      "logits/rejected": 80.82408142089844,
+      "logps/chosen": -28.91988754272461,
+      "logps/rejected": -33.04113006591797,
+      "loss": 0.5578,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.375379741191864,
+      "rewards/margins": 0.7550806403160095,
+      "rewards/rejected": -0.37970098853111267,
       "step": 150
     },
     {
       "epoch": 0.42,
+      "grad_norm": 60.5,
       "learning_rate": 3.636998309800573e-06,
+      "logits/chosen": 82.69292449951172,
+      "logits/rejected": 82.70225524902344,
+      "logps/chosen": -33.54145050048828,
+      "logps/rejected": -30.415197372436523,
+      "loss": 0.6193,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.4762394428253174,
+      "rewards/margins": 0.8463689684867859,
+      "rewards/rejected": -0.37012940645217896,
       "step": 160
     },
     {
       "epoch": 0.44,
+      "grad_norm": 30.375,
       "learning_rate": 3.4304331721118078e-06,
+      "logits/chosen": 83.42604064941406,
+      "logits/rejected": 83.37831115722656,
+      "logps/chosen": -30.8799991607666,
+      "logps/rejected": -32.62963104248047,
+      "loss": 0.5673,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.3034316599369049,
+      "rewards/margins": 0.7910871505737305,
+      "rewards/rejected": -0.4876554012298584,
       "step": 170
     },
     {
       "epoch": 0.47,
+      "grad_norm": 32.0,
       "learning_rate": 3.2162026428305436e-06,
+      "logits/chosen": 80.95600891113281,
+      "logits/rejected": 80.93622589111328,
+      "logps/chosen": -30.429906845092773,
+      "logps/rejected": -31.591838836669922,
+      "loss": 0.4992,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.6137940287590027,
+      "rewards/margins": 0.9614995718002319,
+      "rewards/rejected": -0.34770551323890686,
       "step": 180
     },
     {
       "epoch": 0.49,
+      "grad_norm": 17.25,
       "learning_rate": 2.996071664294641e-06,
+      "logits/chosen": 82.7037124633789,
+      "logits/rejected": 82.69169616699219,
+      "logps/chosen": -30.465667724609375,
+      "logps/rejected": -30.747249603271484,
+      "loss": 0.7493,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.24060054123401642,
+      "rewards/margins": 0.463981568813324,
+      "rewards/rejected": -0.22338099777698517,
       "step": 190
     },
     {
       "epoch": 0.52,
+      "grad_norm": 21.5,
       "learning_rate": 2.7718537898066833e-06,
+      "logits/chosen": 78.2643814086914,
+      "logits/rejected": 78.21286010742188,
+      "logps/chosen": -33.79939270019531,
+      "logps/rejected": -32.67485046386719,
+      "loss": 0.6236,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.7626792192459106,
+      "rewards/margins": 0.9078337550163269,
+      "rewards/rejected": -0.14515459537506104,
       "step": 200
     },
     {
       "epoch": 0.52,
+      "eval_logits/chosen": 98.72710418701172,
+      "eval_logits/rejected": 98.70391082763672,
+      "eval_logps/chosen": -32.6581916809082,
+      "eval_logps/rejected": -36.33292770385742,
+      "eval_loss": 0.7719493508338928,
+      "eval_rewards/accuracies": 0.5215947031974792,
+      "eval_rewards/chosen": -0.17201441526412964,
+      "eval_rewards/margins": 0.12110573798418045,
+      "eval_rewards/rejected": -0.2931201457977295,
+      "eval_runtime": 103.8817,
+      "eval_samples_per_second": 3.302,
       "eval_steps_per_second": 0.414,
       "step": 200
     },
     {
       "epoch": 0.55,
+      "grad_norm": 78.5,
       "learning_rate": 2.5453962426402006e-06,
+      "logits/chosen": 80.8266830444336,
+      "logits/rejected": 80.73197174072266,
+      "logps/chosen": -33.31422805786133,
+      "logps/rejected": -35.28189468383789,
+      "loss": 0.6059,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.5051938891410828,
+      "rewards/margins": 0.7418341636657715,
+      "rewards/rejected": -0.23664025962352753,
       "step": 210
     },
     {
       "epoch": 0.57,
+      "grad_norm": 21.0,
       "learning_rate": 2.3185646976551794e-06,
+      "logits/chosen": 83.00508117675781,
+      "logits/rejected": 83.09242248535156,
+      "logps/chosen": -31.03920555114746,
+      "logps/rejected": -30.981882095336914,
+      "loss": 0.5212,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.7277995347976685,
+      "rewards/margins": 0.930141270160675,
+      "rewards/rejected": -0.20234176516532898,
       "step": 220
     },
     {
       "epoch": 0.6,
+      "grad_norm": 49.25,
       "learning_rate": 2.0932279108998323e-06,
+      "logits/chosen": 80.0581283569336,
+      "logits/rejected": 80.11595153808594,
+      "logps/chosen": -32.08351516723633,
+      "logps/rejected": -34.33815002441406,
+      "loss": 0.594,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.5777846574783325,
+      "rewards/margins": 0.8385850787162781,
+      "rewards/rejected": -0.26080039143562317,
       "step": 230
     },
     {
       "epoch": 0.62,
+      "grad_norm": 28.0,
       "learning_rate": 1.8712423238279358e-06,
+      "logits/chosen": 82.56427001953125,
+      "logits/rejected": 82.85057830810547,
+      "logps/chosen": -30.730464935302734,
+      "logps/rejected": -31.813983917236328,
+      "loss": 0.4701,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.7660826444625854,
+      "rewards/margins": 0.9916342496871948,
+      "rewards/rejected": -0.22555160522460938,
       "step": 240
     },
     {
       "epoch": 0.65,
+      "grad_norm": 50.5,
       "learning_rate": 1.6544367689701824e-06,
+      "logits/chosen": 81.2629623413086,
+      "logits/rejected": 81.32804870605469,
+      "logps/chosen": -26.856103897094727,
+      "logps/rejected": -30.107614517211914,
+      "loss": 0.6072,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.5918346047401428,
+      "rewards/margins": 0.7573351263999939,
+      "rewards/rejected": -0.1655004471540451,
       "step": 250
     },
     {
       "epoch": 0.68,
+      "grad_norm": 36.25,
       "learning_rate": 1.4445974030621963e-06,
+      "logits/chosen": 78.54646301269531,
+      "logits/rejected": 78.68824768066406,
+      "logps/chosen": -30.280277252197266,
+      "logps/rejected": -36.395103454589844,
+      "loss": 0.4323,
       "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 1.0245726108551025,
+      "rewards/margins": 1.259353756904602,
+      "rewards/rejected": -0.23478105664253235,
       "step": 260
     },
     {
       "epoch": 0.7,
+      "grad_norm": 22.625,
       "learning_rate": 1.243452991757889e-06,
+      "logits/chosen": 77.9116439819336,
+      "logits/rejected": 77.93907165527344,
+      "logps/chosen": -30.94207763671875,
+      "logps/rejected": -31.825298309326172,
+      "loss": 0.5298,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.6694773435592651,
+      "rewards/margins": 0.9253811836242676,
+      "rewards/rejected": -0.2559038996696472,
       "step": 270
     },
     {
       "epoch": 0.73,
+      "grad_norm": 48.0,
       "learning_rate": 1.0526606671603523e-06,
+      "logits/chosen": 80.6185531616211,
+      "logits/rejected": 80.40409851074219,
+      "logps/chosen": -31.1258487701416,
+      "logps/rejected": -29.83230972290039,
+      "loss": 0.6589,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.5472350716590881,
+      "rewards/margins": 0.6794873476028442,
+      "rewards/rejected": -0.1322522908449173,
       "step": 280
     },
     {
       "epoch": 0.75,
+      "grad_norm": 17.25,
       "learning_rate": 8.737922755071455e-07,
+      "logits/chosen": 80.76725006103516,
+      "logits/rejected": 80.67757415771484,
+      "logps/chosen": -33.04716491699219,
+      "logps/rejected": -32.507728576660156,
+      "loss": 0.4727,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.8456665277481079,
+      "rewards/margins": 1.238355040550232,
+      "rewards/rejected": -0.39268869161605835,
       "step": 290
     },
     {
       "epoch": 0.78,
+      "grad_norm": 44.75,
       "learning_rate": 7.08321427484816e-07,
+      "logits/chosen": 76.41008758544922,
+      "logits/rejected": 76.48558044433594,
+      "logps/chosen": -32.2567253112793,
+      "logps/rejected": -29.211252212524414,
+      "loss": 0.5655,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.9191843271255493,
+      "rewards/margins": 1.0065667629241943,
+      "rewards/rejected": -0.08738242089748383,
       "step": 300
     },
     {
       "epoch": 0.78,
+      "eval_logits/chosen": 98.77224731445312,
+      "eval_logits/rejected": 98.75171661376953,
+      "eval_logps/chosen": -32.550052642822266,
+      "eval_logps/rejected": -36.224205017089844,
+      "eval_loss": 0.7744476795196533,
+      "eval_rewards/accuracies": 0.5427741408348083,
+      "eval_rewards/chosen": -0.08550228923559189,
+      "eval_rewards/margins": 0.1206393763422966,
+      "eval_rewards/rejected": -0.2061416506767273,
+      "eval_runtime": 104.0332,
+      "eval_samples_per_second": 3.297,
+      "eval_steps_per_second": 0.413,
       "step": 300
     },
     {
       "epoch": 0.81,
+      "grad_norm": 31.875,
       "learning_rate": 5.576113578589035e-07,
+      "logits/chosen": 83.43260192871094,
+      "logits/rejected": 83.46700286865234,
+      "logps/chosen": -30.02802085876465,
+      "logps/rejected": -32.44657897949219,
+      "loss": 0.5905,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.6684112548828125,
+      "rewards/margins": 0.8658668398857117,
+      "rewards/rejected": -0.19745555520057678,
       "step": 310
     },
     {
       "epoch": 0.83,
+      "grad_norm": 24.875,
       "learning_rate": 4.229036944380913e-07,
+      "logits/chosen": 80.97013092041016,
+      "logits/rejected": 80.96881103515625,
+      "logps/chosen": -30.49709701538086,
+      "logps/rejected": -29.160675048828125,
+      "loss": 0.4662,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.8811699748039246,
+      "rewards/margins": 1.0741162300109863,
+      "rewards/rejected": -0.19294631481170654,
       "step": 320
     },
     {
       "epoch": 0.86,
+      "grad_norm": 19.625,
       "learning_rate": 3.053082288996112e-07,
+      "logits/chosen": 78.14985656738281,
+      "logits/rejected": 78.19586181640625,
+      "logps/chosen": -29.189855575561523,
+      "logps/rejected": -32.966094970703125,
+      "loss": 0.4527,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.9302013516426086,
+      "rewards/margins": 1.195185661315918,
+      "rewards/rejected": -0.26498422026634216,
       "step": 330
     },
     {
       "epoch": 0.88,
+      "grad_norm": 61.5,
       "learning_rate": 2.0579377374915805e-07,
+      "logits/chosen": 82.46419525146484,
+      "logits/rejected": 82.48377990722656,
+      "logps/chosen": -32.1870002746582,
+      "logps/rejected": -33.69792175292969,
+      "loss": 0.5537,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.8201173543930054,
+      "rewards/margins": 1.0834996700286865,
+      "rewards/rejected": -0.26338234543800354,
       "step": 340
     },
     {
       "epoch": 0.91,
+      "grad_norm": 16.75,
       "learning_rate": 1.2518018074041684e-07,
+      "logits/chosen": 81.44327545166016,
+      "logits/rejected": 81.4502944946289,
+      "logps/chosen": -32.606056213378906,
+      "logps/rejected": -33.298622131347656,
+      "loss": 0.5676,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.8301448822021484,
+      "rewards/margins": 0.9956042170524597,
+      "rewards/rejected": -0.16545933485031128,
       "step": 350
     },
     {
       "epoch": 0.94,
+      "grad_norm": 33.0,
       "learning_rate": 6.41315865106129e-08,
+      "logits/chosen": 82.95188903808594,
+      "logits/rejected": 82.9841079711914,
+      "logps/chosen": -28.371601104736328,
+      "logps/rejected": -31.830394744873047,
+      "loss": 0.4872,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.9444905519485474,
+      "rewards/margins": 1.0889289379119873,
+      "rewards/rejected": -0.14443838596343994,
       "step": 360
     },
     {
       "epoch": 0.96,
+      "grad_norm": 34.25,
       "learning_rate": 2.3150941078050325e-08,
+      "logits/chosen": 82.37725067138672,
+      "logits/rejected": 82.40049743652344,
+      "logps/chosen": -31.749374389648438,
+      "logps/rejected": -35.2952766418457,
+      "loss": 0.508,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.9014309644699097,
+      "rewards/margins": 1.0501554012298584,
+      "rewards/rejected": -0.14872442185878754,
       "step": 370
     },
     {
       "epoch": 0.99,
+      "grad_norm": 38.0,
       "learning_rate": 2.575864278703266e-09,
+      "logits/chosen": 76.2959976196289,
+      "logits/rejected": 76.17599487304688,
+      "logps/chosen": -29.714282989501953,
+      "logps/rejected": -28.307018280029297,
+      "loss": 0.57,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.6894746422767639,
+      "rewards/margins": 0.806629478931427,
+      "rewards/rejected": -0.11715485900640488,
       "step": 380
     },
     {
       "epoch": 1.0,
       "step": 385,
       "total_flos": 0.0,
+      "train_loss": 0.6050039254225694,
+      "train_runtime": 2556.17,
       "train_samples_per_second": 1.205,
       "train_steps_per_second": 0.151
     }