Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bda064689ed5f85817e5a66c665112a2c0642e367e569ced7d25634e9a8f675b
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:a62c13a0f6c226f7d9b1d312ab87fa57cf33f48a9fd39eb23d23e3a59a6f32d8
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fdb0f04da5d995257ec5fef324dbb8f5d45a812aaf0166431dcd394df07a05c
 size 90365754

 version https://git-lfs.github.com/spec/v1
+oid sha256:99124b306918032c2cc01eb2d00ec5d79ea0f03308292f97feeb46811d489dae
 size 90365754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:026030288cd601691b26a9dd3addc963d8372e0cdb3ae5ae397bb1e558a3e4d2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4a797e4556a00e672702ff04c6ecce740fabaca58e7ff5b6ddf14351f843364
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.001134301270417423,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.9938,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4838612847820800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0017014519056261343,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.9938,
       "step": 50
+    },
+    {
+      "epoch": 0.0011569872958257714,
+      "grad_norm": 2.376706600189209,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 1.9896,
+      "step": 51
+    },
+    {
+      "epoch": 0.0011796733212341198,
+      "grad_norm": 2.9564199447631836,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.014,
+      "step": 52
+    },
+    {
+      "epoch": 0.0012023593466424683,
+      "grad_norm": 1.6720558404922485,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.0453,
+      "step": 53
+    },
+    {
+      "epoch": 0.0012250453720508167,
+      "grad_norm": 1.6735769510269165,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 1.9324,
+      "step": 54
+    },
+    {
+      "epoch": 0.0012250453720508167,
+      "eval_loss": 1.9686158895492554,
+      "eval_runtime": 1114.5532,
+      "eval_samples_per_second": 33.305,
+      "eval_steps_per_second": 4.163,
+      "step": 54
+    },
+    {
+      "epoch": 0.0012477313974591652,
+      "grad_norm": 1.9759901762008667,
+      "learning_rate": 5e-05,
+      "loss": 1.97,
+      "step": 55
+    },
+    {
+      "epoch": 0.0012704174228675136,
+      "grad_norm": 1.0385563373565674,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.0125,
+      "step": 56
+    },
+    {
+      "epoch": 0.001293103448275862,
+      "grad_norm": 1.4511593580245972,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.9829,
+      "step": 57
+    },
+    {
+      "epoch": 0.0013157894736842105,
+      "grad_norm": 1.8236950635910034,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.9339,
+      "step": 58
+    },
+    {
+      "epoch": 0.001338475499092559,
+      "grad_norm": 1.1144325733184814,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 1.9466,
+      "step": 59
+    },
+    {
+      "epoch": 0.0013611615245009074,
+      "grad_norm": 1.2293871641159058,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.9279,
+      "step": 60
+    },
+    {
+      "epoch": 0.0013838475499092558,
+      "grad_norm": 1.463137149810791,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 1.9596,
+      "step": 61
+    },
+    {
+      "epoch": 0.0014065335753176043,
+      "grad_norm": 1.4150505065917969,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.9864,
+      "step": 62
+    },
+    {
+      "epoch": 0.0014292196007259527,
+      "grad_norm": 1.1374602317810059,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.9059,
+      "step": 63
+    },
+    {
+      "epoch": 0.0014292196007259527,
+      "eval_loss": 1.9304600954055786,
+      "eval_runtime": 1115.0604,
+      "eval_samples_per_second": 33.29,
+      "eval_steps_per_second": 4.161,
+      "step": 63
+    },
+    {
+      "epoch": 0.0014519056261343012,
+      "grad_norm": 1.5794055461883545,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.9551,
+      "step": 64
+    },
+    {
+      "epoch": 0.0014745916515426498,
+      "grad_norm": 1.5883877277374268,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.9923,
+      "step": 65
+    },
+    {
+      "epoch": 0.0014972776769509983,
+      "grad_norm": 1.667925477027893,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.9198,
+      "step": 66
+    },
+    {
+      "epoch": 0.0015199637023593467,
+      "grad_norm": 1.3011813163757324,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.9227,
+      "step": 67
+    },
+    {
+      "epoch": 0.0015426497277676952,
+      "grad_norm": 1.1233218908309937,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 1.9375,
+      "step": 68
+    },
+    {
+      "epoch": 0.0015653357531760436,
+      "grad_norm": 1.5612938404083252,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.9055,
+      "step": 69
+    },
+    {
+      "epoch": 0.001588021778584392,
+      "grad_norm": 1.4924774169921875,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.869,
+      "step": 70
+    },
+    {
+      "epoch": 0.0016107078039927405,
+      "grad_norm": 2.727558135986328,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 1.9358,
+      "step": 71
+    },
+    {
+      "epoch": 0.001633393829401089,
+      "grad_norm": 1.8907184600830078,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.9428,
+      "step": 72
+    },
+    {
+      "epoch": 0.001633393829401089,
+      "eval_loss": 1.9025388956069946,
+      "eval_runtime": 1114.1295,
+      "eval_samples_per_second": 33.317,
+      "eval_steps_per_second": 4.165,
+      "step": 72
+    },
+    {
+      "epoch": 0.0016560798548094374,
+      "grad_norm": 1.7879000902175903,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 1.9134,
+      "step": 73
+    },
+    {
+      "epoch": 0.0016787658802177858,
+      "grad_norm": 3.1762635707855225,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.9674,
+      "step": 74
+    },
+    {
+      "epoch": 0.0017014519056261343,
+      "grad_norm": 4.063128471374512,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.9046,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7257919271731200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null