Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd04d9a7bda271cd4d338f45111c6d4b9f1c65ffbee92c54093a4051d129791
 size 500770656

 version https://git-lfs.github.com/spec/v1
+oid sha256:38eb43ff2028b76606a4f5d0f3b4c386f10561011c388a28674dff069de7b357
 size 500770656

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a141357a5c49a79b6f5d5065f39607d7629f3aa753d02af1af2934ef6a0eac46
 size 1001863522

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0d8a78fbb12642eb5040061494f2b8b5783d4781bcac03a3232615d12128e46
 size 1001863522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5bb3ff99db30b8c74510b5cc0bb0eddc2f467801f2b38940a607492d46be8a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e1d50c2f2812a14189e2a9fb84f15e21c77459d9506a3e33b381915c0f967b4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99fc9c0ec571f76cf9b6d1229601c5173899cd18104e487c5627f5f4c56c6e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.12165450121654502,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 1.74,
       "eval_steps_per_second": 0.87,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.53805748224e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24330900243309003,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.74,
       "eval_steps_per_second": 0.87,
       "step": 25
+    },
+    {
+      "epoch": 0.12652068126520682,
+      "grad_norm": 2.573071241378784,
+      "learning_rate": 7.68649804173412e-05,
+      "loss": 10.9635,
+      "step": 26
+    },
+    {
+      "epoch": 0.13138686131386862,
+      "grad_norm": 2.5956778526306152,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 11.7278,
+      "step": 27
+    },
+    {
+      "epoch": 0.1362530413625304,
+      "grad_norm": 2.9840710163116455,
+      "learning_rate": 7.308743066175172e-05,
+      "loss": 11.3258,
+      "step": 28
+    },
+    {
+      "epoch": 0.1411192214111922,
+      "grad_norm": 2.692122459411621,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 11.1816,
+      "step": 29
+    },
+    {
+      "epoch": 0.145985401459854,
+      "grad_norm": 2.821690559387207,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 10.7083,
+      "step": 30
+    },
+    {
+      "epoch": 0.15085158150851583,
+      "grad_norm": 2.8995065689086914,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 11.7289,
+      "step": 31
+    },
+    {
+      "epoch": 0.15571776155717762,
+      "grad_norm": 2.86710524559021,
+      "learning_rate": 6.503528997521366e-05,
+      "loss": 11.5014,
+      "step": 32
+    },
+    {
+      "epoch": 0.16058394160583941,
+      "grad_norm": 3.1569883823394775,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 10.8144,
+      "step": 33
+    },
+    {
+      "epoch": 0.1654501216545012,
+      "grad_norm": 2.958052396774292,
+      "learning_rate": 6.0821980696905146e-05,
+      "loss": 11.5663,
+      "step": 34
+    },
+    {
+      "epoch": 0.170316301703163,
+      "grad_norm": 2.971606731414795,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 11.8629,
+      "step": 35
+    },
+    {
+      "epoch": 0.17518248175182483,
+      "grad_norm": 3.4037623405456543,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 11.2805,
+      "step": 36
+    },
+    {
+      "epoch": 0.18004866180048662,
+      "grad_norm": 3.7285900115966797,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 11.6089,
+      "step": 37
+    },
+    {
+      "epoch": 0.18491484184914841,
+      "grad_norm": 3.6044297218322754,
+      "learning_rate": 5.218096936826681e-05,
+      "loss": 12.6734,
+      "step": 38
+    },
+    {
+      "epoch": 0.1897810218978102,
+      "grad_norm": 3.859436511993408,
+      "learning_rate": 5e-05,
+      "loss": 11.3451,
+      "step": 39
+    },
+    {
+      "epoch": 0.19464720194647203,
+      "grad_norm": 4.121180534362793,
+      "learning_rate": 4.781903063173321e-05,
+      "loss": 11.4139,
+      "step": 40
+    },
+    {
+      "epoch": 0.19951338199513383,
+      "grad_norm": 4.352361679077148,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 13.3278,
+      "step": 41
+    },
+    {
+      "epoch": 0.20437956204379562,
+      "grad_norm": 3.7588999271392822,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 10.9387,
+      "step": 42
+    },
+    {
+      "epoch": 0.20924574209245742,
+      "grad_norm": 4.562860012054443,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 12.128,
+      "step": 43
+    },
+    {
+      "epoch": 0.2141119221411192,
+      "grad_norm": 4.854923725128174,
+      "learning_rate": 3.917801930309486e-05,
+      "loss": 11.4224,
+      "step": 44
+    },
+    {
+      "epoch": 0.21897810218978103,
+      "grad_norm": 4.410684585571289,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 11.0198,
+      "step": 45
+    },
+    {
+      "epoch": 0.22384428223844283,
+      "grad_norm": 4.752728462219238,
+      "learning_rate": 3.4964710024786354e-05,
+      "loss": 11.2316,
+      "step": 46
+    },
+    {
+      "epoch": 0.22871046228710462,
+      "grad_norm": 4.889558792114258,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 10.6528,
+      "step": 47
+    },
+    {
+      "epoch": 0.23357664233576642,
+      "grad_norm": 6.103560924530029,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 11.6173,
+      "step": 48
+    },
+    {
+      "epoch": 0.2384428223844282,
+      "grad_norm": 6.686156749725342,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 11.7325,
+      "step": 49
+    },
+    {
+      "epoch": 0.24330900243309003,
+      "grad_norm": 8.535616874694824,
+      "learning_rate": 2.6912569338248315e-05,
+      "loss": 10.9532,
+      "step": 50
+    },
+    {
+      "epoch": 0.24330900243309003,
+      "eval_loss": 1.3366206884384155,
+      "eval_runtime": 100.0065,
+      "eval_samples_per_second": 1.74,
+      "eval_steps_per_second": 0.87,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.291665014784e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null