Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8788da83fc0963535c2a80621f1dadc1f8420ede82dd5a7c19e69d58b49e792
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:3769b1b520e548fcc2e49e3526ba53c969f995ed31d16a17f83c9bcde08426b0
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f98bdf3f29e9fd1f6c273dc4694d98357a69949043c5a4d30c0ea8d40a236d4e
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa17e2bd5a2d2407570244f5a7dff423f5d4bf277ba2cfe5f11d7070d6f605ac
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0c59790f2e3ba0a4714a087914c6124ed7398fe25ca94de6ab9e0301a8e585f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a080d3277fb6ccb5ed989cb90ca2c5dbb10923ca8748d5a82c16ca3dd1e9dbd3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03417634996582365,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3782,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2615122329600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0683526999316473,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.3782,
       "step": 25
+    },
+    {
+      "epoch": 0.0355434039644566,
+      "grad_norm": 0.02938682585954666,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.3787,
+      "step": 26
+    },
+    {
+      "epoch": 0.03691045796308954,
+      "grad_norm": 0.02904021181166172,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.3791,
+      "step": 27
+    },
+    {
+      "epoch": 0.03691045796308954,
+      "eval_loss": 10.377742767333984,
+      "eval_runtime": 7.5411,
+      "eval_samples_per_second": 81.686,
+      "eval_steps_per_second": 10.211,
+      "step": 27
+    },
+    {
+      "epoch": 0.03827751196172249,
+      "grad_norm": 0.0318170003592968,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.3771,
+      "step": 28
+    },
+    {
+      "epoch": 0.039644565960355434,
+      "grad_norm": 0.02432270534336567,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.3778,
+      "step": 29
+    },
+    {
+      "epoch": 0.04101161995898838,
+      "grad_norm": 0.026823556050658226,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.3767,
+      "step": 30
+    },
+    {
+      "epoch": 0.04237867395762133,
+      "grad_norm": 0.033317871391773224,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.3794,
+      "step": 31
+    },
+    {
+      "epoch": 0.043745727956254275,
+      "grad_norm": 0.031059078872203827,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.3769,
+      "step": 32
+    },
+    {
+      "epoch": 0.045112781954887216,
+      "grad_norm": 0.03409845754504204,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.3752,
+      "step": 33
+    },
+    {
+      "epoch": 0.04647983595352016,
+      "grad_norm": 0.03169793263077736,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.3758,
+      "step": 34
+    },
+    {
+      "epoch": 0.04784688995215311,
+      "grad_norm": 0.03686445206403732,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.3781,
+      "step": 35
+    },
+    {
+      "epoch": 0.04921394395078606,
+      "grad_norm": 0.033234287053346634,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 10.3763,
+      "step": 36
+    },
+    {
+      "epoch": 0.04921394395078606,
+      "eval_loss": 10.376964569091797,
+      "eval_runtime": 7.5425,
+      "eval_samples_per_second": 81.67,
+      "eval_steps_per_second": 10.209,
+      "step": 36
+    },
+    {
+      "epoch": 0.050580997949419004,
+      "grad_norm": 0.036596354097127914,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.3761,
+      "step": 37
+    },
+    {
+      "epoch": 0.05194805194805195,
+      "grad_norm": 0.037729229778051376,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 10.3797,
+      "step": 38
+    },
+    {
+      "epoch": 0.05331510594668489,
+      "grad_norm": 0.033103104680776596,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 10.3753,
+      "step": 39
+    },
+    {
+      "epoch": 0.05468215994531784,
+      "grad_norm": 0.03534068167209625,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.377,
+      "step": 40
+    },
+    {
+      "epoch": 0.056049213943950786,
+      "grad_norm": 0.039501581341028214,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 10.3763,
+      "step": 41
+    },
+    {
+      "epoch": 0.05741626794258373,
+      "grad_norm": 0.034217603504657745,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 10.3771,
+      "step": 42
+    },
+    {
+      "epoch": 0.05878332194121668,
+      "grad_norm": 0.03207022696733475,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 10.3783,
+      "step": 43
+    },
+    {
+      "epoch": 0.06015037593984962,
+      "grad_norm": 0.032752349972724915,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 10.3758,
+      "step": 44
+    },
+    {
+      "epoch": 0.06151742993848257,
+      "grad_norm": 0.03998551517724991,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 10.3773,
+      "step": 45
+    },
+    {
+      "epoch": 0.06151742993848257,
+      "eval_loss": 10.376114845275879,
+      "eval_runtime": 7.5351,
+      "eval_samples_per_second": 81.75,
+      "eval_steps_per_second": 10.219,
+      "step": 45
+    },
+    {
+      "epoch": 0.06288448393711552,
+      "grad_norm": 0.04494759440422058,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.3791,
+      "step": 46
+    },
+    {
+      "epoch": 0.06425153793574846,
+      "grad_norm": 0.04423767328262329,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 10.3764,
+      "step": 47
+    },
+    {
+      "epoch": 0.06561859193438141,
+      "grad_norm": 0.040932126343250275,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 10.3753,
+      "step": 48
+    },
+    {
+      "epoch": 0.06698564593301436,
+      "grad_norm": 0.03703533113002777,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 10.3754,
+      "step": 49
+    },
+    {
+      "epoch": 0.0683526999316473,
+      "grad_norm": 0.045363329350948334,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 10.3755,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5230244659200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null