Training in progress, step 24, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed42c4f1aaa9cada7198c5f323230d87ee09b57576e7d950a2c3834959fa15c3
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:411783d0314f467a540a8df6ff8a3a75201e5ee7d4750b1e086bd32c5ea5a107
 size 22573704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d27a4ebd791d07e5b1cfc44f17a9827d40b2bf864281321fb70d71fa2d0ff94b
 size 11710970

 version https://git-lfs.github.com/spec/v1
+oid sha256:77c26073d447206b8b66c25d2b98fb6fd426cf5f7fd73400e063ef401282a2fb
 size 11710970

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9597782ca364dbe28a7439fdedcdf322494e93e382f10c874045bdc9d0bac679
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c8680cf4ba1dcd39f9d67e5ae57f3db5e707ced62e06fe3b3f1934c3f902eb3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22a6e6a0b2784c7e2a9fa2d84da5a62a9f8cb07ce793f7ae78e83f3f18f8cb85
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac599fff4b26ed2f8aaa3f64038b795f8035d5e4d74e62f4a3c0c4e718607220
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5663716814159292,
   "eval_steps": 6,
-  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -38,6 +38,29 @@
       "eval_samples_per_second": 70.272,
       "eval_steps_per_second": 8.876,
       "step": 12
     }
   ],
   "logging_steps": 10,
@@ -57,7 +80,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6157965195214848.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8495575221238938,
   "eval_steps": 6,
+  "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 70.272,
       "eval_steps_per_second": 8.876,
       "step": 12
+    },
+    {
+      "epoch": 0.6371681415929203,
+      "eval_loss": 0.24917787313461304,
+      "eval_runtime": 2.7038,
+      "eval_samples_per_second": 70.271,
+      "eval_steps_per_second": 8.876,
+      "step": 18
+    },
+    {
+      "epoch": 0.7079646017699115,
+      "grad_norm": 0.9552421569824219,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.3935,
+      "step": 20
+    },
+    {
+      "epoch": 0.8495575221238938,
+      "eval_loss": 0.17106853425502777,
+      "eval_runtime": 2.7134,
+      "eval_samples_per_second": 70.023,
+      "eval_steps_per_second": 8.845,
+      "step": 24
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9236947792822272.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null