Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +189 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da786392d9ceb0323bb0b63a7f83c877c336a5488125b263caae22d46d2503fb
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:09256918fcfa1b2af1e989a996d97122116d0cb1574882c1a2eaa3a850cc38be
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0074dbb4eebf5b0496597d0515e360e96925f60a9fc1fa6c3bd27b8c558783bd
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc4749910c1d3e6e7f6882ac1cf8ba5f1e41e7e6aece0bbb02137f2721f104a1
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4249043c081ea848dc42c09e13cce479dc11e099545d370f4ab1536c0159684
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c83fc6a4afe4889b14a2f3c4463e03964a04bfddcafb8b08c5881dfb31f11c7b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58a49108293edbb6877a3e9ba0d52e802c533bf4a33edff9df48f4e84b4fa057
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca2ad0660f4430a149f84300447ae0a59e68e8b51799a2e3848afe158aff8281
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.084327220916748,
-  "best_model_checkpoint": "miner_id_24/checkpoint-25",
-  "epoch": 0.5108556832694764,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 7.649,
       "eval_steps_per_second": 1.947,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -221,12 +404,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.330495774261248e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0260274410247803,
+  "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 1.0255427841634739,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.649,
       "eval_steps_per_second": 1.947,
       "step": 25
+    },
+    {
+      "epoch": 0.5312899106002554,
+      "grad_norm": 3.512051582336426,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 17.1562,
+      "step": 26
+    },
+    {
+      "epoch": 0.5517241379310345,
+      "grad_norm": 3.581163167953491,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 15.3294,
+      "step": 27
+    },
+    {
+      "epoch": 0.5721583652618135,
+      "grad_norm": 3.7532386779785156,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 18.2124,
+      "step": 28
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 3.3712620735168457,
+      "learning_rate": 1.45e-05,
+      "loss": 15.1985,
+      "step": 29
+    },
+    {
+      "epoch": 0.6130268199233716,
+      "grad_norm": 3.74042010307312,
+      "learning_rate": 1.5e-05,
+      "loss": 16.3185,
+      "step": 30
+    },
+    {
+      "epoch": 0.6334610472541508,
+      "grad_norm": 3.747729778289795,
+      "learning_rate": 1.55e-05,
+      "loss": 18.091,
+      "step": 31
+    },
+    {
+      "epoch": 0.6538952745849298,
+      "grad_norm": 3.3717548847198486,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 15.5985,
+      "step": 32
+    },
+    {
+      "epoch": 0.6743295019157088,
+      "grad_norm": 3.1136016845703125,
+      "learning_rate": 1.65e-05,
+      "loss": 16.1861,
+      "step": 33
+    },
+    {
+      "epoch": 0.6947637292464879,
+      "grad_norm": 2.9378445148468018,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 15.428,
+      "step": 34
+    },
+    {
+      "epoch": 0.7151979565772669,
+      "grad_norm": 3.0630242824554443,
+      "learning_rate": 1.75e-05,
+      "loss": 15.6852,
+      "step": 35
+    },
+    {
+      "epoch": 0.735632183908046,
+      "grad_norm": 3.5427470207214355,
+      "learning_rate": 1.8e-05,
+      "loss": 15.8646,
+      "step": 36
+    },
+    {
+      "epoch": 0.756066411238825,
+      "grad_norm": 3.6774771213531494,
+      "learning_rate": 1.85e-05,
+      "loss": 15.4281,
+      "step": 37
+    },
+    {
+      "epoch": 0.776500638569604,
+      "grad_norm": 3.539029836654663,
+      "learning_rate": 1.9e-05,
+      "loss": 16.3628,
+      "step": 38
+    },
+    {
+      "epoch": 0.7969348659003831,
+      "grad_norm": 3.6181910037994385,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 16.0907,
+      "step": 39
+    },
+    {
+      "epoch": 0.8173690932311622,
+      "grad_norm": 3.2122557163238525,
+      "learning_rate": 2e-05,
+      "loss": 16.8239,
+      "step": 40
+    },
+    {
+      "epoch": 0.8378033205619413,
+      "grad_norm": 3.049232006072998,
+      "learning_rate": 2.05e-05,
+      "loss": 17.2511,
+      "step": 41
+    },
+    {
+      "epoch": 0.8582375478927203,
+      "grad_norm": 3.254066228866577,
+      "learning_rate": 2.1e-05,
+      "loss": 16.2736,
+      "step": 42
+    },
+    {
+      "epoch": 0.8786717752234994,
+      "grad_norm": 3.0137479305267334,
+      "learning_rate": 2.15e-05,
+      "loss": 16.5703,
+      "step": 43
+    },
+    {
+      "epoch": 0.8991060025542784,
+      "grad_norm": 3.380715847015381,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 16.8219,
+      "step": 44
+    },
+    {
+      "epoch": 0.9195402298850575,
+      "grad_norm": 2.935159921646118,
+      "learning_rate": 2.25e-05,
+      "loss": 16.5484,
+      "step": 45
+    },
+    {
+      "epoch": 0.9399744572158365,
+      "grad_norm": 2.9660491943359375,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 15.6773,
+      "step": 46
+    },
+    {
+      "epoch": 0.9604086845466155,
+      "grad_norm": 2.7908406257629395,
+      "learning_rate": 2.35e-05,
+      "loss": 15.7697,
+      "step": 47
+    },
+    {
+      "epoch": 0.9808429118773946,
+      "grad_norm": 3.0066637992858887,
+      "learning_rate": 2.4e-05,
+      "loss": 17.0586,
+      "step": 48
+    },
+    {
+      "epoch": 1.0051085568326947,
+      "grad_norm": 3.090890645980835,
+      "learning_rate": 2.45e-05,
+      "loss": 19.5984,
+      "step": 49
+    },
+    {
+      "epoch": 1.0255427841634739,
+      "grad_norm": 2.8104114532470703,
+      "learning_rate": 2.5e-05,
+      "loss": 16.0491,
+      "step": 50
+    },
+    {
+      "epoch": 1.0255427841634739,
+      "eval_loss": 1.0260274410247803,
+      "eval_runtime": 21.5925,
+      "eval_samples_per_second": 7.642,
+      "eval_steps_per_second": 1.945,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.6709702668294554e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null