Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55349e70ffa0e2f8f3a21c40298846493b29aec2ff30cd26b10ca4129ab60e4b
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cd43f63f9ecf6ecf3a5bfa21363625ea505360b5415114133205dd2b59386fe
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85ac5eb9b28c472211d1823bae19f331481ae5e8c5de77b1c4e51ef684c4b2ad
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:13eb1ae448f639c6fc5a91ac41bfcad35616eeb3f2cf48108f184ea09244fac9
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a111e14abe8f14522b9eb18e80b1bcb3d2102e1ad52b55f4982e16c9267860a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9024b58e806fcb6949a3c4fa21e89b17f0f6855913aa2d65e35ac7243aca26bb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3865979381443299,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,205 @@
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.001,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +817,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.046381361017651e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5154639175257731,
   "eval_steps": 9,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.001,
       "step": 75
+    },
+    {
+      "epoch": 0.3917525773195876,
+      "grad_norm": 0.09077905118465424,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.0013,
+      "step": 76
+    },
+    {
+      "epoch": 0.39690721649484534,
+      "grad_norm": 0.2005167007446289,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.0027,
+      "step": 77
+    },
+    {
+      "epoch": 0.4020618556701031,
+      "grad_norm": 0.0988876149058342,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.0015,
+      "step": 78
+    },
+    {
+      "epoch": 0.4072164948453608,
+      "grad_norm": 4.370724678039551,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.7077,
+      "step": 79
+    },
+    {
+      "epoch": 0.41237113402061853,
+      "grad_norm": 0.11564851552248001,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0017,
+      "step": 80
+    },
+    {
+      "epoch": 0.4175257731958763,
+      "grad_norm": 8.133021354675293,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.9245,
+      "step": 81
+    },
+    {
+      "epoch": 0.4175257731958763,
+      "eval_loss": 0.08475032448768616,
+      "eval_runtime": 21.741,
+      "eval_samples_per_second": 7.543,
+      "eval_steps_per_second": 0.966,
+      "step": 81
+    },
+    {
+      "epoch": 0.422680412371134,
+      "grad_norm": 0.1518518328666687,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0023,
+      "step": 82
+    },
+    {
+      "epoch": 0.42783505154639173,
+      "grad_norm": 1.6926969289779663,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.2092,
+      "step": 83
+    },
+    {
+      "epoch": 0.4329896907216495,
+      "grad_norm": 0.2798406481742859,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.0042,
+      "step": 84
+    },
+    {
+      "epoch": 0.4381443298969072,
+      "grad_norm": 0.2371184229850769,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0034,
+      "step": 85
+    },
+    {
+      "epoch": 0.44329896907216493,
+      "grad_norm": 0.17637385427951813,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.0026,
+      "step": 86
+    },
+    {
+      "epoch": 0.4484536082474227,
+      "grad_norm": 3.1468141078948975,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.6379,
+      "step": 87
+    },
+    {
+      "epoch": 0.4536082474226804,
+      "grad_norm": 0.24188271164894104,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.0034,
+      "step": 88
+    },
+    {
+      "epoch": 0.4587628865979381,
+      "grad_norm": 0.24231961369514465,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.0035,
+      "step": 89
+    },
+    {
+      "epoch": 0.4639175257731959,
+      "grad_norm": 4.427914619445801,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.2254,
+      "step": 90
+    },
+    {
+      "epoch": 0.4639175257731959,
+      "eval_loss": 0.08191782236099243,
+      "eval_runtime": 21.7252,
+      "eval_samples_per_second": 7.549,
+      "eval_steps_per_second": 0.967,
+      "step": 90
+    },
+    {
+      "epoch": 0.4690721649484536,
+      "grad_norm": 0.2126396894454956,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.003,
+      "step": 91
+    },
+    {
+      "epoch": 0.4742268041237113,
+      "grad_norm": 0.20022186636924744,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.003,
+      "step": 92
+    },
+    {
+      "epoch": 0.4793814432989691,
+      "grad_norm": 0.19003306329250336,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.0027,
+      "step": 93
+    },
+    {
+      "epoch": 0.4845360824742268,
+      "grad_norm": 0.14814479649066925,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.0022,
+      "step": 94
+    },
+    {
+      "epoch": 0.4896907216494845,
+      "grad_norm": 0.27076900005340576,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.0035,
+      "step": 95
+    },
+    {
+      "epoch": 0.4948453608247423,
+      "grad_norm": 0.18297503888607025,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.0026,
+      "step": 96
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.21572761237621307,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.003,
+      "step": 97
+    },
+    {
+      "epoch": 0.5051546391752577,
+      "grad_norm": 0.2129024714231491,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.003,
+      "step": 98
+    },
+    {
+      "epoch": 0.5103092783505154,
+      "grad_norm": 4.743049144744873,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.5582,
+      "step": 99
+    },
+    {
+      "epoch": 0.5103092783505154,
+      "eval_loss": 0.08042775094509125,
+      "eval_runtime": 21.6824,
+      "eval_samples_per_second": 7.564,
+      "eval_steps_per_second": 0.969,
+      "step": 99
+    },
+    {
+      "epoch": 0.5154639175257731,
+      "grad_norm": 0.18646113574504852,
+      "learning_rate": 0.0,
+      "loss": 0.0027,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.086571390808883e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null