Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42e9708fcf0dc69d01e4d47e95cd0cf62c7a05255fdbf25bf2b7ced1d2b8653c
 size 912734242

 version https://git-lfs.github.com/spec/v1
+oid sha256:96032390fd76b5881f3520f64469e4c4a585a852acf6f7d2c3133b5854701cfd
 size 912734242

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c043ef7cb0170b316c48a933afe838ab6e17b8e5ff828f3364c3815876fd224
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c3d77e85ef4319d3c71b57607183b1b2cb91cb74c5cafc69ea798287a1fe4e7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c22c14fd7b38849afaa55c09954b4824ea92bd65741ca88579aeaad705e3549e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:01b46be7c94d46cbf3936729b4500eb28aa6241f5015ee42e650f0780bcaa16e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4468085106382977,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 2.973,
       "eval_steps_per_second": 1.586,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.746225840128e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.8936170212765955,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.973,
       "eval_steps_per_second": 1.586,
       "step": 25
+    },
+    {
+      "epoch": 1.50354609929078,
+      "grad_norm": NaN,
+      "learning_rate": 5.4613417973165106e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 1.5602836879432624,
+      "grad_norm": NaN,
+      "learning_rate": 5.153975292780853e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 1.6170212765957448,
+      "grad_norm": NaN,
+      "learning_rate": 4.8460247072191496e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 1.673758865248227,
+      "grad_norm": NaN,
+      "learning_rate": 4.5386582026834906e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 1.7304964539007093,
+      "grad_norm": NaN,
+      "learning_rate": 4.233041725606572e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 1.7872340425531914,
+      "grad_norm": NaN,
+      "learning_rate": 3.930334583967514e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 1.8439716312056738,
+      "grad_norm": NaN,
+      "learning_rate": 3.631685049639586e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 1.900709219858156,
+      "grad_norm": NaN,
+      "learning_rate": 3.338226002601703e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 1.9574468085106385,
+      "grad_norm": NaN,
+      "learning_rate": 3.0510706335366035e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 2.0425531914893615,
+      "grad_norm": NaN,
+      "learning_rate": 2.771308221117309e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 2.099290780141844,
+      "grad_norm": NaN,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 2.1560283687943262,
+      "grad_norm": NaN,
+      "learning_rate": 2.238175135197471e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 2.2127659574468086,
+      "grad_norm": NaN,
+      "learning_rate": 1.9868268181037185e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 2.269503546099291,
+      "grad_norm": NaN,
+      "learning_rate": 1.746908498978791e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 2.326241134751773,
+      "grad_norm": NaN,
+      "learning_rate": 1.5193302701853673e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 2.382978723404255,
+      "grad_norm": NaN,
+      "learning_rate": 1.3049554138967051e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 2.4397163120567376,
+      "grad_norm": NaN,
+      "learning_rate": 1.1045971273716477e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 2.49645390070922,
+      "grad_norm": NaN,
+      "learning_rate": 9.190154382188921e-06,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 2.5531914893617023,
+      "grad_norm": NaN,
+      "learning_rate": 7.489143213519301e-06,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 2.6099290780141846,
+      "grad_norm": NaN,
+      "learning_rate": 5.949390285710776e-06,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": NaN,
+      "learning_rate": 4.576736409023813e-06,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 2.723404255319149,
+      "grad_norm": NaN,
+      "learning_rate": 3.376388529782215e-06,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 2.780141843971631,
+      "grad_norm": NaN,
+      "learning_rate": 2.3528999786421756e-06,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 2.8368794326241136,
+      "grad_norm": NaN,
+      "learning_rate": 1.5101531982495308e-06,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 2.8936170212765955,
+      "grad_norm": NaN,
+      "learning_rate": 8.513450158049108e-07,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 2.8936170212765955,
+      "eval_loss": NaN,
+      "eval_runtime": 5.0454,
+      "eval_samples_per_second": 2.973,
+      "eval_steps_per_second": 1.586,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.1492451680256e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null