Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8131af8588d8566328b96c635f48f3de0b25f57518844c0a2e9f44c5bf9d0ef
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cd0df024b2af338797900e8824ae706042d7de9681e9a4604f85e7621bbf328
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a46a5f05e65cb1bd5ea5bf5f9bb41429ee64954d9a6e77a19d9643fb1e8c36f
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a7f3154a16cbd81192703e638fd69ec8f74b73f11356036f8c0d9d6252c2dd5
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0a67d29101ee0fb4b577868156b9baea98b5caf128a409b5686a6d2dad1d2bc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:309c8dcb721a2263f3cbfb0ac7f4550c8789c7796a21b40389afcc99ea606e89
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12886597938144329,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.0,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8918125730791424e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.25773195876288657,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.0,
       "step": 25
+    },
+    {
+      "epoch": 0.13402061855670103,
+      "grad_norm": 0.0012311228783801198,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.13917525773195877,
+      "grad_norm": 3.0350265502929688,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.0273,
+      "step": 27
+    },
+    {
+      "epoch": 0.13917525773195877,
+      "eval_loss": 0.13399523496627808,
+      "eval_runtime": 21.6878,
+      "eval_samples_per_second": 7.562,
+      "eval_steps_per_second": 0.968,
+      "step": 27
+    },
+    {
+      "epoch": 0.14432989690721648,
+      "grad_norm": 2.609058380126953,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.2549,
+      "step": 28
+    },
+    {
+      "epoch": 0.14948453608247422,
+      "grad_norm": 2.5564022064208984,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.2713,
+      "step": 29
+    },
+    {
+      "epoch": 0.15463917525773196,
+      "grad_norm": 0.004194566048681736,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.0001,
+      "step": 30
+    },
+    {
+      "epoch": 0.15979381443298968,
+      "grad_norm": 0.02432350441813469,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.0003,
+      "step": 31
+    },
+    {
+      "epoch": 0.16494845360824742,
+      "grad_norm": 0.10287989675998688,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.0016,
+      "step": 32
+    },
+    {
+      "epoch": 0.17010309278350516,
+      "grad_norm": 0.15942052006721497,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.0022,
+      "step": 33
+    },
+    {
+      "epoch": 0.17525773195876287,
+      "grad_norm": 0.13477763533592224,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.002,
+      "step": 34
+    },
+    {
+      "epoch": 0.18041237113402062,
+      "grad_norm": 0.26224347949028015,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.0032,
+      "step": 35
+    },
+    {
+      "epoch": 0.18556701030927836,
+      "grad_norm": 0.04019778594374657,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.0008,
+      "step": 36
+    },
+    {
+      "epoch": 0.18556701030927836,
+      "eval_loss": 0.106597900390625,
+      "eval_runtime": 21.7234,
+      "eval_samples_per_second": 7.549,
+      "eval_steps_per_second": 0.967,
+      "step": 36
+    },
+    {
+      "epoch": 0.19072164948453607,
+      "grad_norm": 0.04918993264436722,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.0007,
+      "step": 37
+    },
+    {
+      "epoch": 0.1958762886597938,
+      "grad_norm": 0.050692107528448105,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.0006,
+      "step": 38
+    },
+    {
+      "epoch": 0.20103092783505155,
+      "grad_norm": 0.1913205236196518,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.0013,
+      "step": 39
+    },
+    {
+      "epoch": 0.20618556701030927,
+      "grad_norm": 0.04988051578402519,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0005,
+      "step": 40
+    },
+    {
+      "epoch": 0.211340206185567,
+      "grad_norm": 0.0087781036272645,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.0002,
+      "step": 41
+    },
+    {
+      "epoch": 0.21649484536082475,
+      "grad_norm": 0.005335505586117506,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.0001,
+      "step": 42
+    },
+    {
+      "epoch": 0.22164948453608246,
+      "grad_norm": 0.004015314858406782,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.0001,
+      "step": 43
+    },
+    {
+      "epoch": 0.2268041237113402,
+      "grad_norm": 0.003211095929145813,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.0001,
+      "step": 44
+    },
+    {
+      "epoch": 0.23195876288659795,
+      "grad_norm": 0.0034166828263550997,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0001,
+      "step": 45
+    },
+    {
+      "epoch": 0.23195876288659795,
+      "eval_loss": 0.09906752407550812,
+      "eval_runtime": 21.7256,
+      "eval_samples_per_second": 7.549,
+      "eval_steps_per_second": 0.967,
+      "step": 45
+    },
+    {
+      "epoch": 0.23711340206185566,
+      "grad_norm": 0.003013444831594825,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.0001,
+      "step": 46
+    },
+    {
+      "epoch": 0.2422680412371134,
+      "grad_norm": 0.002908573718741536,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.0001,
+      "step": 47
+    },
+    {
+      "epoch": 0.24742268041237114,
+      "grad_norm": 0.0029524180572479963,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.0001,
+      "step": 48
+    },
+    {
+      "epoch": 0.25257731958762886,
+      "grad_norm": 0.00290951831266284,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.0001,
+      "step": 49
+    },
+    {
+      "epoch": 0.25773195876288657,
+      "grad_norm": 2.945087432861328,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.2683,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.969096967048397e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null