Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5e2ff66a7b0e04a29816c88037e77aa673497eb8e027471eda9c5f9ebb6f272
 size 50624

 version https://git-lfs.github.com/spec/v1
+oid sha256:80bfe2d688ac44392280baa5fdad87d14de201541df9c16bb0d8163c43035b58
 size 50624

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4620a977de6e15aef61ca0649bebef664f661b09024d409988f34fbf63689c1
 size 118090

 version https://git-lfs.github.com/spec/v1
+oid sha256:064f987673a140b70d424d59b8daf0e8621e71ba532ad148748861f58bf57093
 size 118090

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b3600f4f62c77cfb9f3f36d5a114f6f58022f220d20e149c85171731fd49eb1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb9517b7ce59c47365939baf2f50e6bfd58d4414b9c61ed194de990178b59d75
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0257201646090535,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.374,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1307561164800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.051440329218107,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 10.374,
       "step": 25
+    },
+    {
+      "epoch": 0.026748971193415638,
+      "grad_norm": 0.028679387643933296,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 10.3742,
+      "step": 26
+    },
+    {
+      "epoch": 0.027777777777777776,
+      "grad_norm": 0.027246227487921715,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 10.373,
+      "step": 27
+    },
+    {
+      "epoch": 0.027777777777777776,
+      "eval_loss": 10.373526573181152,
+      "eval_runtime": 4.4408,
+      "eval_samples_per_second": 184.426,
+      "eval_steps_per_second": 23.194,
+      "step": 27
+    },
+    {
+      "epoch": 0.02880658436213992,
+      "grad_norm": 0.02638566493988037,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 10.3752,
+      "step": 28
+    },
+    {
+      "epoch": 0.029835390946502057,
+      "grad_norm": 0.029429133981466293,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 10.3752,
+      "step": 29
+    },
+    {
+      "epoch": 0.030864197530864196,
+      "grad_norm": 0.028540797531604767,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 10.3752,
+      "step": 30
+    },
+    {
+      "epoch": 0.03189300411522634,
+      "grad_norm": 0.026979394257068634,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 10.3744,
+      "step": 31
+    },
+    {
+      "epoch": 0.03292181069958848,
+      "grad_norm": 0.03402787446975708,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 10.3702,
+      "step": 32
+    },
+    {
+      "epoch": 0.033950617283950615,
+      "grad_norm": 0.03517807647585869,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 10.3777,
+      "step": 33
+    },
+    {
+      "epoch": 0.03497942386831276,
+      "grad_norm": 0.028791263699531555,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 10.37,
+      "step": 34
+    },
+    {
+      "epoch": 0.0360082304526749,
+      "grad_norm": 0.027155417948961258,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 10.374,
+      "step": 35
+    },
+    {
+      "epoch": 0.037037037037037035,
+      "grad_norm": 0.033103760331869125,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 10.3683,
+      "step": 36
+    },
+    {
+      "epoch": 0.037037037037037035,
+      "eval_loss": 10.372629165649414,
+      "eval_runtime": 4.6687,
+      "eval_samples_per_second": 175.422,
+      "eval_steps_per_second": 22.062,
+      "step": 36
+    },
+    {
+      "epoch": 0.03806584362139918,
+      "grad_norm": 0.03502420708537102,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 10.371,
+      "step": 37
+    },
+    {
+      "epoch": 0.03909465020576132,
+      "grad_norm": 0.03081183321774006,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 10.3732,
+      "step": 38
+    },
+    {
+      "epoch": 0.040123456790123455,
+      "grad_norm": 0.02784951776266098,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 10.3758,
+      "step": 39
+    },
+    {
+      "epoch": 0.0411522633744856,
+      "grad_norm": 0.03854544833302498,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 10.3658,
+      "step": 40
+    },
+    {
+      "epoch": 0.04218106995884774,
+      "grad_norm": 0.027156542986631393,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 10.3731,
+      "step": 41
+    },
+    {
+      "epoch": 0.043209876543209874,
+      "grad_norm": 0.03118831478059292,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 10.3659,
+      "step": 42
+    },
+    {
+      "epoch": 0.044238683127572016,
+      "grad_norm": 0.03406394273042679,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 10.3682,
+      "step": 43
+    },
+    {
+      "epoch": 0.04526748971193416,
+      "grad_norm": 0.03691929578781128,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 10.3734,
+      "step": 44
+    },
+    {
+      "epoch": 0.046296296296296294,
+      "grad_norm": 0.03526577353477478,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 10.3724,
+      "step": 45
+    },
+    {
+      "epoch": 0.046296296296296294,
+      "eval_loss": 10.37172794342041,
+      "eval_runtime": 4.6525,
+      "eval_samples_per_second": 176.035,
+      "eval_steps_per_second": 22.139,
+      "step": 45
+    },
+    {
+      "epoch": 0.047325102880658436,
+      "grad_norm": 0.038986314088106155,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 10.3734,
+      "step": 46
+    },
+    {
+      "epoch": 0.04835390946502058,
+      "grad_norm": 0.033386219292879105,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 10.3747,
+      "step": 47
+    },
+    {
+      "epoch": 0.04938271604938271,
+      "grad_norm": 0.03682396188378334,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 10.3702,
+      "step": 48
+    },
+    {
+      "epoch": 0.050411522633744855,
+      "grad_norm": 0.035510748624801636,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 10.3708,
+      "step": 49
+    },
+    {
+      "epoch": 0.051440329218107,
+      "grad_norm": 0.02855323627591133,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 10.3743,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2615122329600.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null