Training in progress, step 35, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +121 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cdedf433deab50184f95cb1c4786410c886e89d09459b37b2d7d7906acd02ab
 size 191968

 version https://git-lfs.github.com/spec/v1
+oid sha256:389eed975d12b564fd874d90814d179fa92a08af2629545d4296c32813c23ddf
 size 191968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82e615783e6c16bb60c6ecc44b6e6a0c6dafdf49ddb6096c0df9fffa2a154e64
 size 253144

 version https://git-lfs.github.com/spec/v1
+oid sha256:7af6fbfa9e6decd5896a2bd0853612084b67590060f11f0648066d1a02c4fa2e
 size 253144

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d0440fe0e5910ed062e7da8e32dd6c2a310e10dc8b5186169b259a0a8b05db8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:005d9a86e0834fe0802ab2e1c3fa9eca806e3cae26d1cbb14ab848a758219c13
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d63217b923cb177f669d6bc2174b89abdc6a56d968d279b505491b37976d9bb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:88f387d8c434535a84694e469cebc18f2e722ba31b0dc0372632798b59011377
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08771929824561403,
   "eval_steps": 5,
-  "global_step": 5,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -30,6 +30,124 @@
       "eval_samples_per_second": 573.519,
       "eval_steps_per_second": 71.69,
       "step": 5
     }
   ],
   "logging_steps": 3,
@@ -49,7 +167,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 557753303040.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6140350877192983,
   "eval_steps": 5,
+  "global_step": 35,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 573.519,
       "eval_steps_per_second": 71.69,
       "step": 5
+    },
+    {
+      "epoch": 0.10526315789473684,
+      "grad_norm": 0.08514741063117981,
+      "learning_rate": 6e-05,
+      "loss": 10.3717,
+      "step": 6
+    },
+    {
+      "epoch": 0.15789473684210525,
+      "grad_norm": 0.08602377027273178,
+      "learning_rate": 9e-05,
+      "loss": 10.3709,
+      "step": 9
+    },
+    {
+      "epoch": 0.17543859649122806,
+      "eval_loss": 10.365401268005371,
+      "eval_runtime": 0.1659,
+      "eval_samples_per_second": 578.602,
+      "eval_steps_per_second": 72.325,
+      "step": 10
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 0.07277622818946838,
+      "learning_rate": 9.938441702975689e-05,
+      "loss": 10.3704,
+      "step": 12
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 0.07048846036195755,
+      "learning_rate": 9.619397662556435e-05,
+      "loss": 10.3696,
+      "step": 15
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "eval_loss": 10.363677024841309,
+      "eval_runtime": 0.1716,
+      "eval_samples_per_second": 559.366,
+      "eval_steps_per_second": 69.921,
+      "step": 15
+    },
+    {
+      "epoch": 0.3157894736842105,
+      "grad_norm": 0.09568169713020325,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.3689,
+      "step": 18
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "eval_loss": 10.36184310913086,
+      "eval_runtime": 0.1886,
+      "eval_samples_per_second": 508.996,
+      "eval_steps_per_second": 63.625,
+      "step": 20
+    },
+    {
+      "epoch": 0.3684210526315789,
+      "grad_norm": 0.08425775915384293,
+      "learning_rate": 8.247240241650918e-05,
+      "loss": 10.3657,
+      "step": 21
+    },
+    {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 0.11433319002389908,
+      "learning_rate": 7.269952498697734e-05,
+      "loss": 10.3645,
+      "step": 24
+    },
+    {
+      "epoch": 0.43859649122807015,
+      "eval_loss": 10.35986328125,
+      "eval_runtime": 0.1662,
+      "eval_samples_per_second": 577.559,
+      "eval_steps_per_second": 72.195,
+      "step": 25
+    },
+    {
+      "epoch": 0.47368421052631576,
+      "grad_norm": 0.1078442707657814,
+      "learning_rate": 6.167226819279528e-05,
+      "loss": 10.3641,
+      "step": 27
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.11035740375518799,
+      "learning_rate": 5e-05,
+      "loss": 10.3617,
+      "step": 30
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "eval_loss": 10.358070373535156,
+      "eval_runtime": 0.1694,
+      "eval_samples_per_second": 566.668,
+      "eval_steps_per_second": 70.833,
+      "step": 30
+    },
+    {
+      "epoch": 0.5789473684210527,
+      "grad_norm": 0.158222496509552,
+      "learning_rate": 3.832773180720475e-05,
+      "loss": 10.3614,
+      "step": 33
+    },
+    {
+      "epoch": 0.6140350877192983,
+      "eval_loss": 10.356663703918457,
+      "eval_runtime": 0.1699,
+      "eval_samples_per_second": 565.089,
+      "eval_steps_per_second": 70.636,
+      "step": 35
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 3904273121280.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null