Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa49b40d1f1830fe17757b94b096f7c69ca6faf7c65b0a6c5cda92f59a441bd7
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:4096439e3f4b06e464258b4c1cd582129ec5fd5c7585c510e9a8753c774aac89
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37bf08d431b1f5ff02707910b407aeae35ae71bd6e007450e8c1656c796dbaf9
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b680918be4dc2d7256d4f2373a7a6529c70b4642a0a1ab803b286f609973726
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a52cc4d16c843b569d6d5d048b2827f69a8d46354ca0a4d8a8faaf5b0a25a8ff
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a82070ffe55ccbf8a10ae05c44e293986e51c38a62e2b8b84945035270d2adeb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f7e91af1a79d7676619e959cc4b5dde54a9e2ec825d24c1c34fe5387a27894f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d914dc409ae93ac75985631a9974025ebaa397f621307eef226e7d6e1076a1f6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0198373338623289,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 4.963,
       "eval_steps_per_second": 2.482,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.26729100951552e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0396746677246578,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.963,
       "eval_steps_per_second": 2.482,
       "step": 25
+    },
+    {
+      "epoch": 0.020630827216822058,
+      "grad_norm": 3.2634661197662354,
+      "learning_rate": 0.0001537299608346824,
+      "loss": 2.9078,
+      "step": 26
+    },
+    {
+      "epoch": 0.021424320571315214,
+      "grad_norm": 4.43280553817749,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 3.0779,
+      "step": 27
+    },
+    {
+      "epoch": 0.02221781392580837,
+      "grad_norm": 3.53800106048584,
+      "learning_rate": 0.00014617486132350343,
+      "loss": 2.9961,
+      "step": 28
+    },
+    {
+      "epoch": 0.023011307280301527,
+      "grad_norm": 2.2324697971343994,
+      "learning_rate": 0.00014226182617406996,
+      "loss": 2.7108,
+      "step": 29
+    },
+    {
+      "epoch": 0.023804800634794683,
+      "grad_norm": 3.370065212249756,
+      "learning_rate": 0.000138268343236509,
+      "loss": 2.9733,
+      "step": 30
+    },
+    {
+      "epoch": 0.02459829398928784,
+      "grad_norm": 2.1509768962860107,
+      "learning_rate": 0.00013420201433256689,
+      "loss": 2.7909,
+      "step": 31
+    },
+    {
+      "epoch": 0.025391787343780996,
+      "grad_norm": 3.518296957015991,
+      "learning_rate": 0.00013007057995042732,
+      "loss": 3.0504,
+      "step": 32
+    },
+    {
+      "epoch": 0.026185280698274152,
+      "grad_norm": 2.118720054626465,
+      "learning_rate": 0.00012588190451025207,
+      "loss": 2.8059,
+      "step": 33
+    },
+    {
+      "epoch": 0.02697877405276731,
+      "grad_norm": 2.4879894256591797,
+      "learning_rate": 0.00012164396139381029,
+      "loss": 2.8901,
+      "step": 34
+    },
+    {
+      "epoch": 0.027772267407260465,
+      "grad_norm": 2.6533515453338623,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 2.8234,
+      "step": 35
+    },
+    {
+      "epoch": 0.02856576076175362,
+      "grad_norm": 8.765356063842773,
+      "learning_rate": 0.00011305261922200519,
+      "loss": 4.3363,
+      "step": 36
+    },
+    {
+      "epoch": 0.029359254116246777,
+      "grad_norm": 2.3454673290252686,
+      "learning_rate": 0.00010871557427476583,
+      "loss": 3.0552,
+      "step": 37
+    },
+    {
+      "epoch": 0.030152747470739934,
+      "grad_norm": 1.8576560020446777,
+      "learning_rate": 0.00010436193873653361,
+      "loss": 2.8869,
+      "step": 38
+    },
+    {
+      "epoch": 0.03094624082523309,
+      "grad_norm": 2.4082350730895996,
+      "learning_rate": 0.0001,
+      "loss": 2.8681,
+      "step": 39
+    },
+    {
+      "epoch": 0.031739734179726246,
+      "grad_norm": 2.3808937072753906,
+      "learning_rate": 9.563806126346642e-05,
+      "loss": 2.8245,
+      "step": 40
+    },
+    {
+      "epoch": 0.0325332275342194,
+      "grad_norm": 1.8626981973648071,
+      "learning_rate": 9.128442572523417e-05,
+      "loss": 2.8774,
+      "step": 41
+    },
+    {
+      "epoch": 0.03332672088871256,
+      "grad_norm": 2.4850103855133057,
+      "learning_rate": 8.694738077799488e-05,
+      "loss": 2.9511,
+      "step": 42
+    },
+    {
+      "epoch": 0.034120214243205715,
+      "grad_norm": 2.5530030727386475,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 2.7849,
+      "step": 43
+    },
+    {
+      "epoch": 0.03491370759769887,
+      "grad_norm": 3.354628562927246,
+      "learning_rate": 7.835603860618972e-05,
+      "loss": 2.8894,
+      "step": 44
+    },
+    {
+      "epoch": 0.03570720095219203,
+      "grad_norm": 2.490819215774536,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 2.8177,
+      "step": 45
+    },
+    {
+      "epoch": 0.036500694306685184,
+      "grad_norm": 4.005395412445068,
+      "learning_rate": 6.992942004957271e-05,
+      "loss": 3.0671,
+      "step": 46
+    },
+    {
+      "epoch": 0.03729418766117834,
+      "grad_norm": 2.593477725982666,
+      "learning_rate": 6.579798566743314e-05,
+      "loss": 2.9372,
+      "step": 47
+    },
+    {
+      "epoch": 0.0380876810156715,
+      "grad_norm": 4.0660319328308105,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 2.9659,
+      "step": 48
+    },
+    {
+      "epoch": 0.038881174370164646,
+      "grad_norm": 3.1026699542999268,
+      "learning_rate": 5.773817382593008e-05,
+      "loss": 3.0151,
+      "step": 49
+    },
+    {
+      "epoch": 0.0396746677246578,
+      "grad_norm": 6.865238189697266,
+      "learning_rate": 5.382513867649663e-05,
+      "loss": 2.9836,
+      "step": 50
+    },
+    {
+      "epoch": 0.0396746677246578,
+      "eval_loss": 0.3641993999481201,
+      "eval_runtime": 214.9129,
+      "eval_samples_per_second": 4.942,
+      "eval_steps_per_second": 2.471,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.53458201903104e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null