Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbcf6f4f90a4bafb8d23aff94ce0accf77b7b79897bd040b97bb20972f4058e0
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:98ff02ca74905333f667bcf7a6443967f933082f342dc68a7bb707317ac48ab9
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c16d7313dd6c9462632d4287f8fee1609dca8cda84582d6a7513518868b3bde4
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4f75c6aaa7fbc51c8866c647b8b4c9b0e7b21add96318fc3c0e019213e81fa3
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f2fd603c5aa4d94391c1f30205f94ea461a2b1e5320c16a8c8e0b90249f9cb9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:64d65493590c55e295f0f9aaff1e0206cce0bc6cd719fea8661f346fd6e1d407
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ea7ff16b0c30a914eb0d145e3fb06ff9027c6cd2408e766ce8a09accab89a4d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e69e2b49ea642509f0c688c16fb190b7cf27dac0a18903a5e2d1467d0343d8b8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8295209407806396,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.0033676837071462246,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 3.011,
       "eval_steps_per_second": 1.505,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.710984250608845e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8184752464294434,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.006735367414292449,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.011,
       "eval_steps_per_second": 1.505,
       "step": 25
+    },
+    {
+      "epoch": 0.003502391055432074,
+      "grad_norm": 0.21760126948356628,
+      "learning_rate": 0.0001,
+      "loss": 0.7503,
+      "step": 26
+    },
+    {
+      "epoch": 0.003637098403717923,
+      "grad_norm": 0.2235322743654251,
+      "learning_rate": 9.345968707698569e-05,
+      "loss": 0.7927,
+      "step": 27
+    },
+    {
+      "epoch": 0.003771805752003772,
+      "grad_norm": 0.22535647451877594,
+      "learning_rate": 8.694738077799488e-05,
+      "loss": 0.8245,
+      "step": 28
+    },
+    {
+      "epoch": 0.003906513100289621,
+      "grad_norm": 0.2814962565898895,
+      "learning_rate": 8.049096779838719e-05,
+      "loss": 0.9863,
+      "step": 29
+    },
+    {
+      "epoch": 0.00404122044857547,
+      "grad_norm": 0.24935074150562286,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 0.9404,
+      "step": 30
+    },
+    {
+      "epoch": 0.0041759277968613185,
+      "grad_norm": 0.2589765191078186,
+      "learning_rate": 6.785605346968386e-05,
+      "loss": 0.797,
+      "step": 31
+    },
+    {
+      "epoch": 0.004310635145147168,
+      "grad_norm": 0.2682248651981354,
+      "learning_rate": 6.173165676349103e-05,
+      "loss": 0.7075,
+      "step": 32
+    },
+    {
+      "epoch": 0.004445342493433016,
+      "grad_norm": 0.2292226403951645,
+      "learning_rate": 5.577113097809989e-05,
+      "loss": 0.7168,
+      "step": 33
+    },
+    {
+      "epoch": 0.004580049841718866,
+      "grad_norm": 0.3114967942237854,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.934,
+      "step": 34
+    },
+    {
+      "epoch": 0.004714757190004715,
+      "grad_norm": 0.26063475012779236,
+      "learning_rate": 4.444297669803981e-05,
+      "loss": 0.6765,
+      "step": 35
+    },
+    {
+      "epoch": 0.0048494645382905635,
+      "grad_norm": 0.2700875699520111,
+      "learning_rate": 3.9123857099127936e-05,
+      "loss": 0.8336,
+      "step": 36
+    },
+    {
+      "epoch": 0.004984171886576413,
+      "grad_norm": 0.3182436525821686,
+      "learning_rate": 3.406541848999312e-05,
+      "loss": 0.9314,
+      "step": 37
+    },
+    {
+      "epoch": 0.005118879234862261,
+      "grad_norm": 0.3367193639278412,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 0.9114,
+      "step": 38
+    },
+    {
+      "epoch": 0.005253586583148111,
+      "grad_norm": 0.3540671169757843,
+      "learning_rate": 2.4816019252102273e-05,
+      "loss": 0.9422,
+      "step": 39
+    },
+    {
+      "epoch": 0.00538829393143396,
+      "grad_norm": 0.36494025588035583,
+      "learning_rate": 2.0664665970876496e-05,
+      "loss": 0.9221,
+      "step": 40
+    },
+    {
+      "epoch": 0.0055230012797198086,
+      "grad_norm": 0.35188528895378113,
+      "learning_rate": 1.6853038769745467e-05,
+      "loss": 0.8136,
+      "step": 41
+    },
+    {
+      "epoch": 0.005657708628005658,
+      "grad_norm": 0.38938695192337036,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 0.7914,
+      "step": 42
+    },
+    {
+      "epoch": 0.005792415976291506,
+      "grad_norm": 0.45242178440093994,
+      "learning_rate": 1.0312725846731175e-05,
+      "loss": 0.9588,
+      "step": 43
+    },
+    {
+      "epoch": 0.005927123324577356,
+      "grad_norm": 0.4056650996208191,
+      "learning_rate": 7.612046748871327e-06,
+      "loss": 0.8246,
+      "step": 44
+    },
+    {
+      "epoch": 0.006061830672863205,
+      "grad_norm": 0.4734395444393158,
+      "learning_rate": 5.306987050489442e-06,
+      "loss": 0.9447,
+      "step": 45
+    },
+    {
+      "epoch": 0.0061965380211490536,
+      "grad_norm": 0.4617159962654114,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 0.7806,
+      "step": 46
+    },
+    {
+      "epoch": 0.006331245369434903,
+      "grad_norm": 0.5809133648872375,
+      "learning_rate": 1.921471959676957e-06,
+      "loss": 0.9423,
+      "step": 47
+    },
+    {
+      "epoch": 0.006465952717720751,
+      "grad_norm": 0.606318473815918,
+      "learning_rate": 8.555138626189618e-07,
+      "loss": 0.9536,
+      "step": 48
+    },
+    {
+      "epoch": 0.006600660066006601,
+      "grad_norm": 0.6376668214797974,
+      "learning_rate": 2.141076761396521e-07,
+      "loss": 0.7261,
+      "step": 49
+    },
+    {
+      "epoch": 0.006735367414292449,
+      "grad_norm": 0.9981294870376587,
+      "learning_rate": 0.0,
+      "loss": 0.7886,
+      "step": 50
+    },
+    {
+      "epoch": 0.006735367414292449,
+      "eval_loss": 0.8184752464294434,
+      "eval_runtime": 1039.4306,
+      "eval_samples_per_second": 3.007,
+      "eval_steps_per_second": 1.504,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.420420668411085e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null