Training in progress, step 172, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +158 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2efa61628380ec6f2ac140ab19d93abb9fc7b8d46f4c418dffc2b55eace6b22a
 size 50358592

 version https://git-lfs.github.com/spec/v1
+oid sha256:29cc34a3cd885733d3c4faf7a97b4a5d9bf87a161d165305cf2dcf585b8d0c58
 size 50358592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9a45d2b89bf8b3b5abf0972bc838ff277c4043abd276af2bea1200a62239c87
 size 100824826

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbf0ca6be6ea824c85bf807fb40498462db82a8f6eadbd7efa399e0c0543f8d3
 size 100824826

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:848ea3c58951903fc03b92351f96f9f7af95e3edd79d2660b6228841524d09c0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d639eb250c7c55b6a29fdd69e4579d94bfaba9136e8b42af916ae34fb1964068
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa45a5ad3b1db9e5459aebacc7177d8fadf9b32be0f1806d3c11e0a76edf93bd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:10e21e4fb66c3880ee4f2f331927101dc991ccbe5e792512d3166ae12e4bbde2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.970888078212738,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 1.744186046511628,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,160 @@
       "eval_samples_per_second": 6.243,
       "eval_steps_per_second": 0.874,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1136,12 +1290,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.539348896540262e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.970888078212738,
   "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 2.0,
   "eval_steps": 25,
+  "global_step": 172,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.243,
       "eval_steps_per_second": 0.874,
       "step": 150
+    },
+    {
+      "epoch": 1.755813953488372,
+      "grad_norm": 1.1184589862823486,
+      "learning_rate": 1.2267583967958916e-05,
+      "loss": 2.6164,
+      "step": 151
+    },
+    {
+      "epoch": 1.7674418604651163,
+      "grad_norm": 0.9397222995758057,
+      "learning_rate": 1.1141404609666449e-05,
+      "loss": 3.2114,
+      "step": 152
+    },
+    {
+      "epoch": 1.7790697674418605,
+      "grad_norm": 0.8842024803161621,
+      "learning_rate": 1.0067444290199917e-05,
+      "loss": 3.6752,
+      "step": 153
+    },
+    {
+      "epoch": 1.7906976744186047,
+      "grad_norm": 0.9894306659698486,
+      "learning_rate": 9.046106882113751e-06,
+      "loss": 3.8772,
+      "step": 154
+    },
+    {
+      "epoch": 1.802325581395349,
+      "grad_norm": 0.9347633123397827,
+      "learning_rate": 8.07777646863746e-06,
+      "loss": 3.9717,
+      "step": 155
+    },
+    {
+      "epoch": 1.8139534883720931,
+      "grad_norm": 1.0060522556304932,
+      "learning_rate": 7.1628171992377025e-06,
+      "loss": 4.3449,
+      "step": 156
+    },
+    {
+      "epoch": 1.8255813953488373,
+      "grad_norm": 0.9990627765655518,
+      "learning_rate": 6.301573152676664e-06,
+      "loss": 4.1012,
+      "step": 157
+    },
+    {
+      "epoch": 1.8372093023255816,
+      "grad_norm": 1.0378891229629517,
+      "learning_rate": 5.494368207617949e-06,
+      "loss": 4.0339,
+      "step": 158
+    },
+    {
+      "epoch": 1.8488372093023255,
+      "grad_norm": 1.0531872510910034,
+      "learning_rate": 4.741505920829131e-06,
+      "loss": 4.4799,
+      "step": 159
+    },
+    {
+      "epoch": 1.8604651162790697,
+      "grad_norm": 0.9710641503334045,
+      "learning_rate": 4.043269413026429e-06,
+      "loss": 3.6334,
+      "step": 160
+    },
+    {
+      "epoch": 1.872093023255814,
+      "grad_norm": 0.9414262771606445,
+      "learning_rate": 3.3999212624046646e-06,
+      "loss": 3.8207,
+      "step": 161
+    },
+    {
+      "epoch": 1.8837209302325582,
+      "grad_norm": 0.8727117776870728,
+      "learning_rate": 2.811703405892296e-06,
+      "loss": 3.6237,
+      "step": 162
+    },
+    {
+      "epoch": 1.8953488372093024,
+      "grad_norm": 0.8367646932601929,
+      "learning_rate": 2.2788370481687965e-06,
+      "loss": 3.5522,
+      "step": 163
+    },
+    {
+      "epoch": 1.9069767441860463,
+      "grad_norm": 0.9638428688049316,
+      "learning_rate": 1.801522578478648e-06,
+      "loss": 3.7745,
+      "step": 164
+    },
+    {
+      "epoch": 1.9186046511627906,
+      "grad_norm": 1.643754005432129,
+      "learning_rate": 1.3799394952732024e-06,
+      "loss": 4.3574,
+      "step": 165
+    },
+    {
+      "epoch": 1.9302325581395348,
+      "grad_norm": 0.9748329520225525,
+      "learning_rate": 1.0142463387085464e-06,
+      "loss": 4.2242,
+      "step": 166
+    },
+    {
+      "epoch": 1.941860465116279,
+      "grad_norm": 0.938869297504425,
+      "learning_rate": 7.045806310251257e-07,
+      "loss": 4.0438,
+      "step": 167
+    },
+    {
+      "epoch": 1.9534883720930232,
+      "grad_norm": 1.0137250423431396,
+      "learning_rate": 4.510588248311964e-07,
+      "loss": 4.342,
+      "step": 168
+    },
+    {
+      "epoch": 1.9651162790697674,
+      "grad_norm": 1.2118498086929321,
+      "learning_rate": 2.5377625930977363e-07,
+      "loss": 4.5787,
+      "step": 169
+    },
+    {
+      "epoch": 1.9767441860465116,
+      "grad_norm": 2.177273750305176,
+      "learning_rate": 1.1280712436549378e-07,
+      "loss": 4.6907,
+      "step": 170
+    },
+    {
+      "epoch": 1.9883720930232558,
+      "grad_norm": 0.9952888488769531,
+      "learning_rate": 2.8204432724798775e-08,
+      "loss": 3.898,
+      "step": 171
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.449486017227173,
+      "learning_rate": 0.0,
+      "loss": 5.0474,
+      "step": 172
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 7.485613329088512e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null