Training in progress, step 250, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +305 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb55f06de5340fa0d10ed0dae6426c6a83a07e0cd8ce96ba13c03c986a8e4661
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:5744af8f22d56944d2d945034e5a025b6de0020efd45cc44c9b8cb27e1e94f71
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:688772f6d19d70f72936e995a93026bfb9abc712a36d67097873a85f49682fa8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:50c8f9662444a91e91f01d69a445b49517e278e5e03e01795aa31274466481e0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f24b5d38f4655812903952de6875ea0d2743975224d9e1b99357333d1997092
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d90c730646140ec36d7749c40daa51b09c4e3a0b620d5c95eeda7764b46e3d79
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00404071423664847,
   "eval_steps": 125,
-  "global_step": 125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -310,6 +310,308 @@
       "eval_samples_per_second": 45.33,
       "eval_steps_per_second": 22.666,
       "step": 125
     }
   ],
   "logging_steps": 3,
@@ -329,7 +631,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8504522833920000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.00808142847329694,
   "eval_steps": 125,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.33,
       "eval_steps_per_second": 22.666,
       "step": 125
+    },
+    {
+      "epoch": 0.004073039950541658,
+      "grad_norm": NaN,
+      "learning_rate": 8.679762062923175e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.004170017092221221,
+      "grad_norm": NaN,
+      "learning_rate": 8.613974319136958e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.004266994233900785,
+      "grad_norm": NaN,
+      "learning_rate": 8.54684960502629e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.0043639713755803475,
+      "grad_norm": NaN,
+      "learning_rate": 8.478412753017433e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.004460948517259911,
+      "grad_norm": NaN,
+      "learning_rate": 8.408689080954998e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.004557925658939474,
+      "grad_norm": NaN,
+      "learning_rate": 8.33770438273574e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.004654902800619037,
+      "grad_norm": NaN,
+      "learning_rate": 8.265484918766243e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.004751879942298601,
+      "grad_norm": NaN,
+      "learning_rate": 8.192057406248028e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.004848857083978164,
+      "grad_norm": NaN,
+      "learning_rate": 8.117449009293668e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.004945834225657727,
+      "grad_norm": NaN,
+      "learning_rate": 8.041687328877567e-05,
+      "loss": 0.0,
+      "step": 153
+    },
+    {
+      "epoch": 0.00504281136733729,
+      "grad_norm": NaN,
+      "learning_rate": 7.964800392625129e-05,
+      "loss": 0.0,
+      "step": 156
+    },
+    {
+      "epoch": 0.005139788509016854,
+      "grad_norm": NaN,
+      "learning_rate": 7.886816644444098e-05,
+      "loss": 0.0,
+      "step": 159
+    },
+    {
+      "epoch": 0.005236765650696417,
+      "grad_norm": NaN,
+      "learning_rate": 7.807764934001874e-05,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.005333742792375981,
+      "grad_norm": NaN,
+      "learning_rate": 7.727674506052743e-05,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.0054307199340555435,
+      "grad_norm": NaN,
+      "learning_rate": 7.646574989618938e-05,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 0.005527697075735107,
+      "grad_norm": NaN,
+      "learning_rate": 7.564496387029532e-05,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 0.00562467421741467,
+      "grad_norm": NaN,
+      "learning_rate": 7.481469062821252e-05,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 0.005721651359094234,
+      "grad_norm": NaN,
+      "learning_rate": 7.39752373250527e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.005818628500773797,
+      "grad_norm": NaN,
+      "learning_rate": 7.312691451204178e-05,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.0059156056424533605,
+      "grad_norm": NaN,
+      "learning_rate": 7.227003602163295e-05,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.006012582784132923,
+      "grad_norm": NaN,
+      "learning_rate": 7.14049188514063e-05,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.006109559925812486,
+      "grad_norm": NaN,
+      "learning_rate": 7.05318830467969e-05,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.00620653706749205,
+      "grad_norm": NaN,
+      "learning_rate": 6.965125158269619e-05,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.006303514209171613,
+      "grad_norm": NaN,
+      "learning_rate": 6.876335024396872e-05,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.006400491350851177,
+      "grad_norm": NaN,
+      "learning_rate": 6.786850750493006e-05,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.0064974684925307395,
+      "grad_norm": NaN,
+      "learning_rate": 6.696705440782938e-05,
+      "loss": 0.0,
+      "step": 201
+    },
+    {
+      "epoch": 0.006594445634210303,
+      "grad_norm": NaN,
+      "learning_rate": 6.605932444038229e-05,
+      "loss": 0.0,
+      "step": 204
+    },
+    {
+      "epoch": 0.006691422775889866,
+      "grad_norm": NaN,
+      "learning_rate": 6.514565341239861e-05,
+      "loss": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 0.00678839991756943,
+      "grad_norm": NaN,
+      "learning_rate": 6.422637933155162e-05,
+      "loss": 0.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.006885377059248993,
+      "grad_norm": NaN,
+      "learning_rate": 6.330184227833376e-05,
+      "loss": 0.0,
+      "step": 213
+    },
+    {
+      "epoch": 0.006982354200928556,
+      "grad_norm": NaN,
+      "learning_rate": 6.237238428024572e-05,
+      "loss": 0.0,
+      "step": 216
+    },
+    {
+      "epoch": 0.007079331342608119,
+      "grad_norm": NaN,
+      "learning_rate": 6.143834918526527e-05,
+      "loss": 0.0,
+      "step": 219
+    },
+    {
+      "epoch": 0.007176308484287683,
+      "grad_norm": NaN,
+      "learning_rate": 6.0500082534642464e-05,
+      "loss": 0.0,
+      "step": 222
+    },
+    {
+      "epoch": 0.007273285625967246,
+      "grad_norm": NaN,
+      "learning_rate": 5.955793143506863e-05,
+      "loss": 0.0,
+      "step": 225
+    },
+    {
+      "epoch": 0.00737026276764681,
+      "grad_norm": NaN,
+      "learning_rate": 5.861224443026595e-05,
+      "loss": 0.0,
+      "step": 228
+    },
+    {
+      "epoch": 0.0074672399093263725,
+      "grad_norm": NaN,
+      "learning_rate": 5.766337137204579e-05,
+      "loss": 0.0,
+      "step": 231
+    },
+    {
+      "epoch": 0.007564217051005935,
+      "grad_norm": NaN,
+      "learning_rate": 5.6711663290882776e-05,
+      "loss": 0.0,
+      "step": 234
+    },
+    {
+      "epoch": 0.007661194192685499,
+      "grad_norm": NaN,
+      "learning_rate": 5.575747226605298e-05,
+      "loss": 0.0,
+      "step": 237
+    },
+    {
+      "epoch": 0.007758171334365062,
+      "grad_norm": NaN,
+      "learning_rate": 5.480115129538409e-05,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.007855148476044625,
+      "grad_norm": NaN,
+      "learning_rate": 5.384305416466584e-05,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 0.007952125617724189,
+      "grad_norm": NaN,
+      "learning_rate": 5.288353531676873e-05,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 0.008049102759403752,
+      "grad_norm": NaN,
+      "learning_rate": 5.192294972051992e-05,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 0.00808142847329694,
+      "eval_loss": NaN,
+      "eval_runtime": 575.6933,
+      "eval_samples_per_second": 45.252,
+      "eval_steps_per_second": 22.627,
+      "step": 250
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 1.700904566784e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null