Training in progress, step 375, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +305 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5744af8f22d56944d2d945034e5a025b6de0020efd45cc44c9b8cb27e1e94f71
-size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:814c0505ae9626a132eee74a5d49746ba88ce25071435a2e3bf44bf9a6955753
+size 150487412

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50c8f9662444a91e91f01d69a445b49517e278e5e03e01795aa31274466481e0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d2e5ea8bbdbe6933b5b2f456e20e6bca2dc98048eecb503cf50ba6989aff775
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d90c730646140ec36d7749c40daa51b09c4e3a0b620d5c95eeda7764b46e3d79
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:128e0b0294b5389dce5b958620f0aba512ba88459c3fb7de261ee4ac77eb7fa5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00808142847329694,
   "eval_steps": 125,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -612,6 +612,308 @@
       "eval_samples_per_second": 45.252,
       "eval_steps_per_second": 22.627,
       "step": 250
     }
   ],
   "logging_steps": 3,
@@ -631,7 +933,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.700904566784e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01212214270994541,
   "eval_steps": 125,
+  "global_step": 375,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.252,
       "eval_steps_per_second": 22.627,
       "step": 250
+    },
+    {
+      "epoch": 0.008146079901083316,
+      "grad_norm": NaN,
+      "learning_rate": 5.0961652739384356e-05,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 0.008243057042762878,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.008340034184442442,
+      "grad_norm": NaN,
+      "learning_rate": 4.903834726061565e-05,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 0.008437011326122006,
+      "grad_norm": NaN,
+      "learning_rate": 4.807705027948008e-05,
+      "loss": 0.0,
+      "step": 261
+    },
+    {
+      "epoch": 0.00853398846780157,
+      "grad_norm": NaN,
+      "learning_rate": 4.711646468323129e-05,
+      "loss": 0.0,
+      "step": 264
+    },
+    {
+      "epoch": 0.008630965609481131,
+      "grad_norm": NaN,
+      "learning_rate": 4.6156945835334184e-05,
+      "loss": 0.0,
+      "step": 267
+    },
+    {
+      "epoch": 0.008727942751160695,
+      "grad_norm": NaN,
+      "learning_rate": 4.5198848704615914e-05,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.008824919892840259,
+      "grad_norm": NaN,
+      "learning_rate": 4.424252773394704e-05,
+      "loss": 0.0,
+      "step": 273
+    },
+    {
+      "epoch": 0.008921897034519823,
+      "grad_norm": NaN,
+      "learning_rate": 4.328833670911724e-05,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 0.009018874176199385,
+      "grad_norm": NaN,
+      "learning_rate": 4.23366286279542e-05,
+      "loss": 0.0,
+      "step": 279
+    },
+    {
+      "epoch": 0.009115851317878948,
+      "grad_norm": NaN,
+      "learning_rate": 4.138775556973406e-05,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 0.009212828459558512,
+      "grad_norm": NaN,
+      "learning_rate": 4.04420685649314e-05,
+      "loss": 0.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.009309805601238074,
+      "grad_norm": NaN,
+      "learning_rate": 3.9499917465357534e-05,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 0.009406782742917638,
+      "grad_norm": NaN,
+      "learning_rate": 3.856165081473474e-05,
+      "loss": 0.0,
+      "step": 291
+    },
+    {
+      "epoch": 0.009503759884597202,
+      "grad_norm": NaN,
+      "learning_rate": 3.762761571975429e-05,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 0.009600737026276765,
+      "grad_norm": NaN,
+      "learning_rate": 3.6698157721666246e-05,
+      "loss": 0.0,
+      "step": 297
+    },
+    {
+      "epoch": 0.009697714167956327,
+      "grad_norm": NaN,
+      "learning_rate": 3.5773620668448384e-05,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.009794691309635891,
+      "grad_norm": NaN,
+      "learning_rate": 3.48543465876014e-05,
+      "loss": 0.0,
+      "step": 303
+    },
+    {
+      "epoch": 0.009891668451315455,
+      "grad_norm": NaN,
+      "learning_rate": 3.3940675559617724e-05,
+      "loss": 0.0,
+      "step": 306
+    },
+    {
+      "epoch": 0.009988645592995019,
+      "grad_norm": NaN,
+      "learning_rate": 3.303294559217063e-05,
+      "loss": 0.0,
+      "step": 309
+    },
+    {
+      "epoch": 0.01008562273467458,
+      "grad_norm": NaN,
+      "learning_rate": 3.213149249506997e-05,
+      "loss": 0.0,
+      "step": 312
+    },
+    {
+      "epoch": 0.010182599876354144,
+      "grad_norm": NaN,
+      "learning_rate": 3.12366497560313e-05,
+      "loss": 0.0,
+      "step": 315
+    },
+    {
+      "epoch": 0.010279577018033708,
+      "grad_norm": NaN,
+      "learning_rate": 3.0348748417303823e-05,
+      "loss": 0.0,
+      "step": 318
+    },
+    {
+      "epoch": 0.010376554159713272,
+      "grad_norm": NaN,
+      "learning_rate": 2.9468116953203107e-05,
+      "loss": 0.0,
+      "step": 321
+    },
+    {
+      "epoch": 0.010473531301392834,
+      "grad_norm": NaN,
+      "learning_rate": 2.8595081148593738e-05,
+      "loss": 0.0,
+      "step": 324
+    },
+    {
+      "epoch": 0.010570508443072398,
+      "grad_norm": NaN,
+      "learning_rate": 2.772996397836704e-05,
+      "loss": 0.0,
+      "step": 327
+    },
+    {
+      "epoch": 0.010667485584751961,
+      "grad_norm": NaN,
+      "learning_rate": 2.687308548795825e-05,
+      "loss": 0.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.010764462726431523,
+      "grad_norm": NaN,
+      "learning_rate": 2.6024762674947313e-05,
+      "loss": 0.0,
+      "step": 333
+    },
+    {
+      "epoch": 0.010861439868111087,
+      "grad_norm": NaN,
+      "learning_rate": 2.5185309371787513e-05,
+      "loss": 0.0,
+      "step": 336
+    },
+    {
+      "epoch": 0.01095841700979065,
+      "grad_norm": NaN,
+      "learning_rate": 2.43550361297047e-05,
+      "loss": 0.0,
+      "step": 339
+    },
+    {
+      "epoch": 0.011055394151470214,
+      "grad_norm": NaN,
+      "learning_rate": 2.353425010381063e-05,
+      "loss": 0.0,
+      "step": 342
+    },
+    {
+      "epoch": 0.011152371293149776,
+      "grad_norm": NaN,
+      "learning_rate": 2.272325493947257e-05,
+      "loss": 0.0,
+      "step": 345
+    },
+    {
+      "epoch": 0.01124934843482934,
+      "grad_norm": NaN,
+      "learning_rate": 2.192235065998126e-05,
+      "loss": 0.0,
+      "step": 348
+    },
+    {
+      "epoch": 0.011346325576508904,
+      "grad_norm": NaN,
+      "learning_rate": 2.1131833555559037e-05,
+      "loss": 0.0,
+      "step": 351
+    },
+    {
+      "epoch": 0.011443302718188468,
+      "grad_norm": NaN,
+      "learning_rate": 2.0351996073748713e-05,
+      "loss": 0.0,
+      "step": 354
+    },
+    {
+      "epoch": 0.01154027985986803,
+      "grad_norm": NaN,
+      "learning_rate": 1.9583126711224343e-05,
+      "loss": 0.0,
+      "step": 357
+    },
+    {
+      "epoch": 0.011637257001547593,
+      "grad_norm": NaN,
+      "learning_rate": 1.8825509907063327e-05,
+      "loss": 0.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.011734234143227157,
+      "grad_norm": NaN,
+      "learning_rate": 1.807942593751973e-05,
+      "loss": 0.0,
+      "step": 363
+    },
+    {
+      "epoch": 0.011831211284906721,
+      "grad_norm": NaN,
+      "learning_rate": 1.7345150812337564e-05,
+      "loss": 0.0,
+      "step": 366
+    },
+    {
+      "epoch": 0.011928188426586283,
+      "grad_norm": NaN,
+      "learning_rate": 1.66229561726426e-05,
+      "loss": 0.0,
+      "step": 369
+    },
+    {
+      "epoch": 0.012025165568265847,
+      "grad_norm": NaN,
+      "learning_rate": 1.5913109190450032e-05,
+      "loss": 0.0,
+      "step": 372
+    },
+    {
+      "epoch": 0.01212214270994541,
+      "grad_norm": NaN,
+      "learning_rate": 1.5215872469825682e-05,
+      "loss": 0.0,
+      "step": 375
+    },
+    {
+      "epoch": 0.01212214270994541,
+      "eval_loss": NaN,
+      "eval_runtime": 573.9041,
+      "eval_samples_per_second": 45.393,
+      "eval_steps_per_second": 22.697,
+      "step": 375
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 2.551356850176e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null