Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa73689c5a6974ea93065ed42bc5f2b379044d0a4787d5a351daa4181c8f665e
 size 2269195160

 version https://git-lfs.github.com/spec/v1
+oid sha256:b415a21ad762c5e830744ee0c36e01d94d1b4b59c769bac5981ae5a60672a7bc
 size 2269195160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3dd41d7bfc891c5f8700bee952014fd977e1aa64b3c2971a5290f1b58314995d
 size 335922386

 version https://git-lfs.github.com/spec/v1
+oid sha256:50b2e074c6d58dccbf42b5483f8523a085996cf33cf4f8961fdfb79e0d5f24be
 size 335922386

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7dccf15704fbdf23856e1119baffae48b962f09fb2232cc45a115390986e7d5d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:828a7e6e11ce6fb1a2356180954a5b20df0e28e99bfb6b79a96217eb20a3be28
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0023720290336353717,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.5855,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.85471921553408e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0047440580672707434,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 1.5855,
       "step": 25
+    },
+    {
+      "epoch": 0.0024669101949807864,
+      "grad_norm": 0.8661882877349854,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 1.5336,
+      "step": 26
+    },
+    {
+      "epoch": 0.0025617913563262015,
+      "grad_norm": 0.9252780675888062,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.6042,
+      "step": 27
+    },
+    {
+      "epoch": 0.0025617913563262015,
+      "eval_loss": 1.634818196296692,
+      "eval_runtime": 1085.0329,
+      "eval_samples_per_second": 8.18,
+      "eval_steps_per_second": 1.023,
+      "step": 27
+    },
+    {
+      "epoch": 0.002656672517671616,
+      "grad_norm": 1.040569543838501,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 1.6379,
+      "step": 28
+    },
+    {
+      "epoch": 0.0027515536790170313,
+      "grad_norm": 0.934683084487915,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 1.5159,
+      "step": 29
+    },
+    {
+      "epoch": 0.002846434840362446,
+      "grad_norm": 0.908628523349762,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.5628,
+      "step": 30
+    },
+    {
+      "epoch": 0.002941316001707861,
+      "grad_norm": 0.8518630862236023,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 1.5605,
+      "step": 31
+    },
+    {
+      "epoch": 0.0030361971630532758,
+      "grad_norm": 0.9292842149734497,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 1.6211,
+      "step": 32
+    },
+    {
+      "epoch": 0.0031310783243986904,
+      "grad_norm": 0.9021596312522888,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 1.6151,
+      "step": 33
+    },
+    {
+      "epoch": 0.0032259594857441056,
+      "grad_norm": 0.8258885741233826,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 1.6105,
+      "step": 34
+    },
+    {
+      "epoch": 0.0033208406470895202,
+      "grad_norm": 0.8333180546760559,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 1.4312,
+      "step": 35
+    },
+    {
+      "epoch": 0.0034157218084349353,
+      "grad_norm": 0.9054083824157715,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 1.6345,
+      "step": 36
+    },
+    {
+      "epoch": 0.0034157218084349353,
+      "eval_loss": 1.6105045080184937,
+      "eval_runtime": 1084.7416,
+      "eval_samples_per_second": 8.183,
+      "eval_steps_per_second": 1.023,
+      "step": 36
+    },
+    {
+      "epoch": 0.00351060296978035,
+      "grad_norm": 0.9723847508430481,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.5801,
+      "step": 37
+    },
+    {
+      "epoch": 0.003605484131125765,
+      "grad_norm": 0.9598375558853149,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 1.7289,
+      "step": 38
+    },
+    {
+      "epoch": 0.00370036529247118,
+      "grad_norm": 0.7757585644721985,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 1.3911,
+      "step": 39
+    },
+    {
+      "epoch": 0.003795246453816595,
+      "grad_norm": 0.9091125726699829,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.6503,
+      "step": 40
+    },
+    {
+      "epoch": 0.0038901276151620096,
+      "grad_norm": 0.82570880651474,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 1.5909,
+      "step": 41
+    },
+    {
+      "epoch": 0.003985008776507424,
+      "grad_norm": 0.892005205154419,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 1.5125,
+      "step": 42
+    },
+    {
+      "epoch": 0.004079889937852839,
+      "grad_norm": 0.9276201128959656,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.554,
+      "step": 43
+    },
+    {
+      "epoch": 0.0041747710991982545,
+      "grad_norm": 0.9247840642929077,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 1.5783,
+      "step": 44
+    },
+    {
+      "epoch": 0.004269652260543669,
+      "grad_norm": 0.7888846397399902,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 1.6686,
+      "step": 45
+    },
+    {
+      "epoch": 0.004269652260543669,
+      "eval_loss": 1.599737524986267,
+      "eval_runtime": 1084.3859,
+      "eval_samples_per_second": 8.185,
+      "eval_steps_per_second": 1.024,
+      "step": 45
+    },
+    {
+      "epoch": 0.004364533421889084,
+      "grad_norm": 0.8548523187637329,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.7366,
+      "step": 46
+    },
+    {
+      "epoch": 0.004459414583234499,
+      "grad_norm": 0.9126039147377014,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.7126,
+      "step": 47
+    },
+    {
+      "epoch": 0.004554295744579914,
+      "grad_norm": 0.8707435727119446,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 1.595,
+      "step": 48
+    },
+    {
+      "epoch": 0.004649176905925328,
+      "grad_norm": 0.9774793386459351,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 1.6117,
+      "step": 49
+    },
+    {
+      "epoch": 0.0047440580672707434,
+      "grad_norm": 0.96619713306427,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 1.7324,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.70943843106816e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null