Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

checkpoint-100/adapter_config.json +3 -3
checkpoint-100/adapter_model.safetensors +1 -1
checkpoint-100/optimizer.pt +1 -1
checkpoint-100/trainer_state.json +51 -51
checkpoint-100/training_args.bin +1 -1

checkpoint-100/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "k_proj",
     "o_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "o_proj",
+    "q_proj",
+    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-100/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:551e232badaf7526a0f1262fbc6900dcfc9afa2b5d50db98b78dbaea0f9c50cc
 size 109086416

 version https://git-lfs.github.com/spec/v1
+oid sha256:151b8bd48a809a96e0dcf579b9042b091a9d986d80f72ab718c4f3971a92270b
 size 109086416

checkpoint-100/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ab667ba15f7759794fd7de119f94df81faad578bec98f82e293537f1230a273
 size 218319354

 version https://git-lfs.github.com/spec/v1
+oid sha256:de60ef0f9c2409fb4ca6fdf7330929a5d67ced7da9ed06d7f21b24f4172bb9ad
 size 218319354

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_metric": 0.47333332896232605,
-  "best_model_checkpoint": "./zephyr/08-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.17-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-08_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
@@ -10,95 +10,95 @@
   "log_history": [
     {
       "epoch": 0.14,
-      "grad_norm": 0.0,
       "learning_rate": 0.00018,
-      "loss": 0.4638,
       "step": 20,
-      "train/kl": 7.083856105804443,
-      "train/logps/chosen": -426.40190360915494,
-      "train/logps/rejected": -550.5845768960675,
-      "train/rewards/chosen": -14.309082890900088,
-      "train/rewards/margins": 11.978627234626599,
-      "train/rewards/rejected": -26.287710125526687
     },
     {
       "epoch": 0.27,
-      "grad_norm": 0.0,
       "learning_rate": 0.00015142857142857143,
-      "loss": 0.4844,
       "step": 40,
-      "train/kl": 0.0,
-      "train/logps/chosen": -3204.072177419355,
-      "train/logps/rejected": -3086.9876893939395,
-      "train/rewards/chosen": -292.8815524193548,
-      "train/rewards/margins": -13.51173707844572,
-      "train/rewards/rejected": -279.3698153409091
     },
     {
       "epoch": 0.34,
       "eval/kl": 0.0,
-      "eval/logps/chosen": -2537.9452024647885,
-      "eval/logps/rejected": -2313.8192246835442,
-      "eval/rewards/chosen": -225.4286971830986,
-      "eval/rewards/margins": -20.483273429142884,
-      "eval/rewards/rejected": -204.9454237539557,
       "eval_loss": 0.47333332896232605,
-      "eval_runtime": 143.3034,
-      "eval_samples_per_second": 2.093,
-      "eval_steps_per_second": 0.523,
       "step": 50
     },
     {
       "epoch": 0.41,
       "grad_norm": 0.0,
       "learning_rate": 0.00012285714285714287,
-      "loss": 0.5,
       "step": 60,
       "train/kl": 0.0,
-      "train/logps/chosen": -2750.593359375,
-      "train/logps/rejected": -2645.1216796875,
-      "train/rewards/chosen": -247.13798828125,
-      "train/rewards/margins": -11.170458984374989,
-      "train/rewards/rejected": -235.967529296875
     },
     {
       "epoch": 0.55,
       "grad_norm": 0.0,
       "learning_rate": 9.428571428571429e-05,
-      "loss": 0.425,
       "step": 80,
       "train/kl": 0.0,
-      "train/logps/chosen": -2778.7603400735293,
-      "train/logps/rejected": -2450.7654551630435,
-      "train/rewards/chosen": -248.5206801470588,
-      "train/rewards/margins": -31.70898687260228,
-      "train/rewards/rejected": -216.81169327445653
     },
     {
       "epoch": 0.68,
       "grad_norm": 0.0,
       "learning_rate": 6.571428571428571e-05,
-      "loss": 0.5031,
       "step": 100,
       "train/kl": 0.0,
-      "train/logps/chosen": -2629.9400232919256,
-      "train/logps/rejected": -2546.1786556603774,
-      "train/rewards/chosen": -234.98452057453417,
-      "train/rewards/margins": -9.083110393716566,
-      "train/rewards/rejected": -225.9014101808176
     },
     {
       "epoch": 0.68,
       "eval/kl": 0.0,
-      "eval/logps/chosen": -2499.3208626760565,
-      "eval/logps/rejected": -2280.931566455696,
-      "eval/rewards/chosen": -221.56628246038733,
-      "eval/rewards/margins": -19.909649252317706,
-      "eval/rewards/rejected": -201.65663320806962,
       "eval_loss": 0.47333332896232605,
-      "eval_runtime": 143.2853,
-      "eval_samples_per_second": 2.094,
-      "eval_steps_per_second": 0.523,
       "step": 100
     }
   ],

 {
   "best_metric": 0.47333332896232605,
+  "best_model_checkpoint": "./zephyr/09-04-24-Weni-WeniGPT-Agents-Zephyr-1.0.17-KTO_Hyperparameter search, altering lora params for KTO task.-2_max_steps-145_batch_16_2024-04-09_ppid_9/checkpoint-100",
   "epoch": 0.684931506849315,
   "eval_steps": 50,
   "global_step": 100,
   "log_history": [
     {
       "epoch": 0.14,
+      "grad_norm": 3.690321445465088,
       "learning_rate": 0.00018,
+      "loss": 0.4288,
       "step": 20,
+      "train/kl": 4.702511787414551,
+      "train/logps/chosen": -287.9634468129139,
+      "train/logps/rejected": -294.00746579142015,
+      "train/rewards/chosen": -0.4468543450563949,
+      "train/rewards/margins": 1.449634002646083,
+      "train/rewards/rejected": -1.8964883477024779
     },
     {
       "epoch": 0.27,
+      "grad_norm": 9.52605017090491e-09,
       "learning_rate": 0.00015142857142857143,
+      "loss": 0.4014,
       "step": 40,
+      "train/kl": 11.584417343139648,
+      "train/logps/chosen": -482.1775173611111,
+      "train/logps/rejected": -527.2658025568181,
+      "train/rewards/chosen": -20.685902913411457,
+      "train/rewards/margins": 3.630714185310133,
+      "train/rewards/rejected": -24.31661709872159
     },
     {
       "epoch": 0.34,
       "eval/kl": 0.0,
+      "eval/logps/chosen": -1703.6540492957747,
+      "eval/logps/rejected": -1555.5559731012659,
+      "eval/rewards/chosen": -141.9996423855634,
+      "eval/rewards/margins": -12.881070391892507,
+      "eval/rewards/rejected": -129.11857199367088,
       "eval_loss": 0.47333332896232605,
+      "eval_runtime": 139.1542,
+      "eval_samples_per_second": 2.156,
+      "eval_steps_per_second": 0.539,
       "step": 50
     },
     {
       "epoch": 0.41,
       "grad_norm": 0.0,
       "learning_rate": 0.00012285714285714287,
+      "loss": 0.4781,
       "step": 60,
       "train/kl": 0.0,
+      "train/logps/chosen": -1893.7743055555557,
+      "train/logps/rejected": -1621.3242889221558,
+      "train/rewards/chosen": -159.2800372753268,
+      "train/rewards/margins": -25.875120546284876,
+      "train/rewards/rejected": -133.40491672904193
     },
     {
       "epoch": 0.55,
       "grad_norm": 0.0,
       "learning_rate": 9.428571428571429e-05,
+      "loss": 0.4813,
       "step": 80,
       "train/kl": 0.0,
+      "train/logps/chosen": -1972.2258522727273,
+      "train/logps/rejected": -1762.839984939759,
+      "train/rewards/chosen": -167.9407721185065,
+      "train/rewards/margins": -19.929229855705273,
+      "train/rewards/rejected": -148.0115422628012
     },
     {
       "epoch": 0.68,
       "grad_norm": 0.0,
       "learning_rate": 6.571428571428571e-05,
+      "loss": 0.4875,
       "step": 100,
       "train/kl": 0.0,
+      "train/logps/chosen": -1872.451923076923,
+      "train/logps/rejected": -1815.126524390244,
+      "train/rewards/chosen": -158.9895958533654,
+      "train/rewards/margins": -6.588621672725139,
+      "train/rewards/rejected": -152.40097418064025
     },
     {
       "epoch": 0.68,
       "eval/kl": 0.0,
+      "eval/logps/chosen": -1757.160761443662,
+      "eval/logps/rejected": -1608.579509493671,
+      "eval/rewards/chosen": -147.35032460387325,
+      "eval/rewards/margins": -12.929376720170723,
+      "eval/rewards/rejected": -134.42094788370252,
       "eval_loss": 0.47333332896232605,
+      "eval_runtime": 138.9701,
+      "eval_samples_per_second": 2.159,
+      "eval_steps_per_second": 0.54,
       "step": 100
     }
   ],

checkpoint-100/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd18023b644a9c2cdabcdaac6dfa1e6300a37cd115e09b5390aafe409cf852a
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:39092395d53fb6913b80b4e7d57e99e90e490999787945b3f497dd522b0fbec6
 size 5688