Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a91dea3ad4a36cccba5d7e679697c378929616ab47452f6e6a41250c53f2e759
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:a340ff9a40ba658d0c744209a2fa0151200c9f23889b0d92e41f0190892b01b7
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a28d19c83a68cef0d1536b30b6f7a5ba0ab22f051aa766727aa275cef08d13b
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0b5bfa21a4dbe217e27a3d149dcfd87731ff44fcd3cd42067bb73da45f2b6e8
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8605283bb533263c7dcfb8da20e4aa7cd2b49b8adced7ba878e1e67c91f53cb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:19f03c2303110485fc660785bbccce570b07139509cf4d5ec583a48e9d40a234
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a65096be5f10d29ec98c620f8ded3b625f2f622675a048e2b22234af8343af0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d03a54159528aa62893dfcff671b177327b382313312bf10b737e9ae0e77063a
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f24225a5d37448e98d195a8f526ba907fe43ad9731c6c4f2bef8a505f306b043
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fb0d06c2a9f9feb6c9bb923b3bf15c2a29ca8ead96ef8521a04b055e1308d6f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dc76d8a12efd8ba9752fcd37ee85c5c925e45f5a061d6598add90426bf63bb5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b5b9e2666027290fca18ec3d5097f875dee68f229bf9cbd686339b9b0ef83bb
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c750700c5aa7b291c02664208979f9440857259690c6155a338bca5c058bd8d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:54f74800e5401bd6d4b5db174f4498f3d514e0af0e4938764d8ef955fdaf3681
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.29094862937927246,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.7761966364812419,
   "eval_steps": 25,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1113,6 +1113,372 @@
       "eval_samples_per_second": 20.276,
       "eval_steps_per_second": 5.272,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1141,7 +1507,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.500900642665267e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2711719274520874,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 1.034928848641656,
   "eval_steps": 25,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.276,
       "eval_steps_per_second": 5.272,
       "step": 150
+    },
+    {
+      "epoch": 0.7813712807244502,
+      "grad_norm": 42.78679275512695,
+      "learning_rate": 8.111050937205231e-05,
+      "loss": 18.7941,
+      "step": 151
+    },
+    {
+      "epoch": 0.7865459249676585,
+      "grad_norm": 25.310531616210938,
+      "learning_rate": 8.084756472298504e-05,
+      "loss": 17.3761,
+      "step": 152
+    },
+    {
+      "epoch": 0.7917205692108668,
+      "grad_norm": 26.00894546508789,
+      "learning_rate": 8.05832963772275e-05,
+      "loss": 16.5988,
+      "step": 153
+    },
+    {
+      "epoch": 0.796895213454075,
+      "grad_norm": 31.627395629882812,
+      "learning_rate": 8.031771786840027e-05,
+      "loss": 17.0581,
+      "step": 154
+    },
+    {
+      "epoch": 0.8020698576972833,
+      "grad_norm": 24.270063400268555,
+      "learning_rate": 8.005084279721962e-05,
+      "loss": 17.2211,
+      "step": 155
+    },
+    {
+      "epoch": 0.8072445019404916,
+      "grad_norm": 19.81817626953125,
+      "learning_rate": 7.978268483080086e-05,
+      "loss": 16.7364,
+      "step": 156
+    },
+    {
+      "epoch": 0.8124191461836999,
+      "grad_norm": 25.11359214782715,
+      "learning_rate": 7.951325770195858e-05,
+      "loss": 16.9734,
+      "step": 157
+    },
+    {
+      "epoch": 0.8175937904269082,
+      "grad_norm": 24.607805252075195,
+      "learning_rate": 7.924257520850318e-05,
+      "loss": 17.2824,
+      "step": 158
+    },
+    {
+      "epoch": 0.8227684346701164,
+      "grad_norm": 37.20039367675781,
+      "learning_rate": 7.897065121253442e-05,
+      "loss": 21.952,
+      "step": 159
+    },
+    {
+      "epoch": 0.8279430789133247,
+      "grad_norm": 39.281612396240234,
+      "learning_rate": 7.86974996397315e-05,
+      "loss": 21.6825,
+      "step": 160
+    },
+    {
+      "epoch": 0.833117723156533,
+      "grad_norm": 37.44650650024414,
+      "learning_rate": 7.842313447863978e-05,
+      "loss": 20.3417,
+      "step": 161
+    },
+    {
+      "epoch": 0.8382923673997412,
+      "grad_norm": 34.385738372802734,
+      "learning_rate": 7.814756977995459e-05,
+      "loss": 20.6472,
+      "step": 162
+    },
+    {
+      "epoch": 0.8434670116429496,
+      "grad_norm": 33.13866424560547,
+      "learning_rate": 7.78708196558015e-05,
+      "loss": 19.1521,
+      "step": 163
+    },
+    {
+      "epoch": 0.8486416558861578,
+      "grad_norm": 33.19305419921875,
+      "learning_rate": 7.75928982790137e-05,
+      "loss": 17.8224,
+      "step": 164
+    },
+    {
+      "epoch": 0.8538163001293662,
+      "grad_norm": 23.117149353027344,
+      "learning_rate": 7.73138198824062e-05,
+      "loss": 17.1422,
+      "step": 165
+    },
+    {
+      "epoch": 0.8589909443725744,
+      "grad_norm": 20.45843505859375,
+      "learning_rate": 7.703359875804689e-05,
+      "loss": 16.8825,
+      "step": 166
+    },
+    {
+      "epoch": 0.8641655886157826,
+      "grad_norm": 25.545473098754883,
+      "learning_rate": 7.675224925652463e-05,
+      "loss": 16.9471,
+      "step": 167
+    },
+    {
+      "epoch": 0.869340232858991,
+      "grad_norm": 25.315954208374023,
+      "learning_rate": 7.646978578621437e-05,
+      "loss": 16.7291,
+      "step": 168
+    },
+    {
+      "epoch": 0.8745148771021992,
+      "grad_norm": 21.237030029296875,
+      "learning_rate": 7.618622281253924e-05,
+      "loss": 16.8548,
+      "step": 169
+    },
+    {
+      "epoch": 0.8796895213454075,
+      "grad_norm": 20.109127044677734,
+      "learning_rate": 7.590157485722982e-05,
+      "loss": 16.2734,
+      "step": 170
+    },
+    {
+      "epoch": 0.8848641655886158,
+      "grad_norm": 28.761709213256836,
+      "learning_rate": 7.561585649758028e-05,
+      "loss": 18.0656,
+      "step": 171
+    },
+    {
+      "epoch": 0.890038809831824,
+      "grad_norm": 42.106163024902344,
+      "learning_rate": 7.532908236570209e-05,
+      "loss": 21.5631,
+      "step": 172
+    },
+    {
+      "epoch": 0.8952134540750324,
+      "grad_norm": 34.408836364746094,
+      "learning_rate": 7.504126714777451e-05,
+      "loss": 20.1863,
+      "step": 173
+    },
+    {
+      "epoch": 0.9003880983182406,
+      "grad_norm": 34.73509216308594,
+      "learning_rate": 7.475242558329254e-05,
+      "loss": 20.1942,
+      "step": 174
+    },
+    {
+      "epoch": 0.9055627425614489,
+      "grad_norm": 42.28166198730469,
+      "learning_rate": 7.446257246431213e-05,
+      "loss": 19.6754,
+      "step": 175
+    },
+    {
+      "epoch": 0.9055627425614489,
+      "eval_loss": 0.2736213207244873,
+      "eval_runtime": 2.4637,
+      "eval_samples_per_second": 20.295,
+      "eval_steps_per_second": 5.277,
+      "step": 175
+    },
+    {
+      "epoch": 0.9107373868046572,
+      "grad_norm": 24.5119571685791,
+      "learning_rate": 7.417172263469256e-05,
+      "loss": 16.8454,
+      "step": 176
+    },
+    {
+      "epoch": 0.9159120310478654,
+      "grad_norm": 21.90869903564453,
+      "learning_rate": 7.387989098933635e-05,
+      "loss": 17.0339,
+      "step": 177
+    },
+    {
+      "epoch": 0.9210866752910737,
+      "grad_norm": 19.313365936279297,
+      "learning_rate": 7.358709247342646e-05,
+      "loss": 16.8579,
+      "step": 178
+    },
+    {
+      "epoch": 0.926261319534282,
+      "grad_norm": 19.5049991607666,
+      "learning_rate": 7.329334208166084e-05,
+      "loss": 16.6727,
+      "step": 179
+    },
+    {
+      "epoch": 0.9314359637774903,
+      "grad_norm": 21.2435359954834,
+      "learning_rate": 7.299865485748463e-05,
+      "loss": 16.5497,
+      "step": 180
+    },
+    {
+      "epoch": 0.9366106080206986,
+      "grad_norm": 20.878833770751953,
+      "learning_rate": 7.270304589231966e-05,
+      "loss": 16.565,
+      "step": 181
+    },
+    {
+      "epoch": 0.9417852522639069,
+      "grad_norm": 19.161964416503906,
+      "learning_rate": 7.24065303247917e-05,
+      "loss": 15.7553,
+      "step": 182
+    },
+    {
+      "epoch": 0.9469598965071151,
+      "grad_norm": 20.745361328125,
+      "learning_rate": 7.21091233399551e-05,
+      "loss": 15.9131,
+      "step": 183
+    },
+    {
+      "epoch": 0.9521345407503234,
+      "grad_norm": 27.22768211364746,
+      "learning_rate": 7.181084016851518e-05,
+      "loss": 20.1224,
+      "step": 184
+    },
+    {
+      "epoch": 0.9573091849935317,
+      "grad_norm": 33.0516242980957,
+      "learning_rate": 7.151169608604823e-05,
+      "loss": 20.905,
+      "step": 185
+    },
+    {
+      "epoch": 0.96248382923674,
+      "grad_norm": 33.2736701965332,
+      "learning_rate": 7.121170641221921e-05,
+      "loss": 20.3362,
+      "step": 186
+    },
+    {
+      "epoch": 0.9676584734799483,
+      "grad_norm": 34.649681091308594,
+      "learning_rate": 7.091088650999727e-05,
+      "loss": 20.4311,
+      "step": 187
+    },
+    {
+      "epoch": 0.9728331177231565,
+      "grad_norm": 32.207275390625,
+      "learning_rate": 7.060925178486883e-05,
+      "loss": 18.6855,
+      "step": 188
+    },
+    {
+      "epoch": 0.9780077619663649,
+      "grad_norm": 26.237972259521484,
+      "learning_rate": 7.030681768404885e-05,
+      "loss": 16.7824,
+      "step": 189
+    },
+    {
+      "epoch": 0.9831824062095731,
+      "grad_norm": 20.84476661682129,
+      "learning_rate": 7.000359969568959e-05,
+      "loss": 16.19,
+      "step": 190
+    },
+    {
+      "epoch": 0.9883570504527813,
+      "grad_norm": 22.17355728149414,
+      "learning_rate": 6.96996133480875e-05,
+      "loss": 16.6938,
+      "step": 191
+    },
+    {
+      "epoch": 0.9935316946959897,
+      "grad_norm": 38.83606719970703,
+      "learning_rate": 6.9394874208888e-05,
+      "loss": 20.4554,
+      "step": 192
+    },
+    {
+      "epoch": 0.9987063389391979,
+      "grad_norm": 48.76588439941406,
+      "learning_rate": 6.908939788428818e-05,
+      "loss": 19.718,
+      "step": 193
+    },
+    {
+      "epoch": 1.0038809831824063,
+      "grad_norm": 28.960180282592773,
+      "learning_rate": 6.878320001823764e-05,
+      "loss": 16.514,
+      "step": 194
+    },
+    {
+      "epoch": 1.0090556274256144,
+      "grad_norm": 22.513782501220703,
+      "learning_rate": 6.847629629163734e-05,
+      "loss": 14.5428,
+      "step": 195
+    },
+    {
+      "epoch": 1.0142302716688227,
+      "grad_norm": 19.849233627319336,
+      "learning_rate": 6.816870242153649e-05,
+      "loss": 13.8245,
+      "step": 196
+    },
+    {
+      "epoch": 1.019404915912031,
+      "grad_norm": 18.695232391357422,
+      "learning_rate": 6.786043416032772e-05,
+      "loss": 13.3732,
+      "step": 197
+    },
+    {
+      "epoch": 1.0245795601552394,
+      "grad_norm": 19.380321502685547,
+      "learning_rate": 6.755150729494033e-05,
+      "loss": 13.551,
+      "step": 198
+    },
+    {
+      "epoch": 1.0297542043984476,
+      "grad_norm": 21.321197509765625,
+      "learning_rate": 6.724193764603185e-05,
+      "loss": 13.3021,
+      "step": 199
+    },
+    {
+      "epoch": 1.034928848641656,
+      "grad_norm": 21.382387161254883,
+      "learning_rate": 6.693174106717781e-05,
+      "loss": 12.9263,
+      "step": 200
+    },
+    {
+      "epoch": 1.034928848641656,
+      "eval_loss": 0.2711719274520874,
+      "eval_runtime": 2.4664,
+      "eval_samples_per_second": 20.272,
+      "eval_steps_per_second": 5.271,
+      "step": 200
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.66786752355369e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null