Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6368c6e8b866d0433bcdc13650505995205ccdf44f87672dcedb23e6daa69a4a
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:0689a953157233bf208a20f418748fbfcc9e20057ae11752f3b293537a1d462d
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2466cd0cf8dc099207e5f20b11b00bc5ac82a2453d4b5a91c6e8f026cfdd3cb2
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:783e1fa3ccd3430c0d96c0692eede506df7e1022e53fe61cabaae858838adae7
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b6a75a118df3adb6100390221238e779dd8d9f08dc08edd0fd65968f09a82ac
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:48dd86fc5540a24f298422a5c3bb5e0f44a9ac0b58f6b408b534b62ac73901ef
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3003003003003003,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 2.0774,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2695579394048e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.45045045045045046,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 2.0774,
       "step": 50
+    },
+    {
+      "epoch": 0.3063063063063063,
+      "grad_norm": 0.8249204754829407,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 2.0988,
+      "step": 51
+    },
+    {
+      "epoch": 0.3123123123123123,
+      "grad_norm": 0.630953848361969,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 2.0808,
+      "step": 52
+    },
+    {
+      "epoch": 0.3183183183183183,
+      "grad_norm": 0.6519582867622375,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 2.0949,
+      "step": 53
+    },
+    {
+      "epoch": 0.32432432432432434,
+      "grad_norm": 0.6942300200462341,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.1692,
+      "step": 54
+    },
+    {
+      "epoch": 0.32432432432432434,
+      "eval_loss": 1.0634726285934448,
+      "eval_runtime": 20.9032,
+      "eval_samples_per_second": 6.698,
+      "eval_steps_per_second": 0.861,
+      "step": 54
+    },
+    {
+      "epoch": 0.3303303303303303,
+      "grad_norm": 0.6861055493354797,
+      "learning_rate": 5e-05,
+      "loss": 2.1522,
+      "step": 55
+    },
+    {
+      "epoch": 0.33633633633633636,
+      "grad_norm": 0.776831865310669,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 2.1213,
+      "step": 56
+    },
+    {
+      "epoch": 0.34234234234234234,
+      "grad_norm": 0.747948944568634,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 2.3263,
+      "step": 57
+    },
+    {
+      "epoch": 0.3483483483483483,
+      "grad_norm": 0.7790858149528503,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 2.1892,
+      "step": 58
+    },
+    {
+      "epoch": 0.35435435435435436,
+      "grad_norm": 0.6770322918891907,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 2.1512,
+      "step": 59
+    },
+    {
+      "epoch": 0.36036036036036034,
+      "grad_norm": 0.7639994621276855,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 2.1758,
+      "step": 60
+    },
+    {
+      "epoch": 0.3663663663663664,
+      "grad_norm": 0.7350506782531738,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 2.2394,
+      "step": 61
+    },
+    {
+      "epoch": 0.37237237237237236,
+      "grad_norm": 0.7804369926452637,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 2.0869,
+      "step": 62
+    },
+    {
+      "epoch": 0.3783783783783784,
+      "grad_norm": 0.6832085847854614,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 2.1623,
+      "step": 63
+    },
+    {
+      "epoch": 0.3783783783783784,
+      "eval_loss": 1.0578171014785767,
+      "eval_runtime": 20.8929,
+      "eval_samples_per_second": 6.701,
+      "eval_steps_per_second": 0.862,
+      "step": 63
+    },
+    {
+      "epoch": 0.3843843843843844,
+      "grad_norm": 0.6266286969184875,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.9084,
+      "step": 64
+    },
+    {
+      "epoch": 0.39039039039039036,
+      "grad_norm": 0.7004335522651672,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 2.0813,
+      "step": 65
+    },
+    {
+      "epoch": 0.3963963963963964,
+      "grad_norm": 0.7086822390556335,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 2.0428,
+      "step": 66
+    },
+    {
+      "epoch": 0.4024024024024024,
+      "grad_norm": 0.6715360879898071,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 2.237,
+      "step": 67
+    },
+    {
+      "epoch": 0.4084084084084084,
+      "grad_norm": 0.681358814239502,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.2593,
+      "step": 68
+    },
+    {
+      "epoch": 0.4144144144144144,
+      "grad_norm": 0.9270521998405457,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 2.0822,
+      "step": 69
+    },
+    {
+      "epoch": 0.42042042042042044,
+      "grad_norm": 0.6439203023910522,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.0663,
+      "step": 70
+    },
+    {
+      "epoch": 0.4264264264264264,
+      "grad_norm": 0.6978247761726379,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.1257,
+      "step": 71
+    },
+    {
+      "epoch": 0.43243243243243246,
+      "grad_norm": 0.7858160734176636,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 2.1499,
+      "step": 72
+    },
+    {
+      "epoch": 0.43243243243243246,
+      "eval_loss": 1.0535194873809814,
+      "eval_runtime": 20.8455,
+      "eval_samples_per_second": 6.716,
+      "eval_steps_per_second": 0.863,
+      "step": 72
+    },
+    {
+      "epoch": 0.43843843843843844,
+      "grad_norm": 0.7479972839355469,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.1146,
+      "step": 73
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.6571378111839294,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 2.1681,
+      "step": 74
+    },
+    {
+      "epoch": 0.45045045045045046,
+      "grad_norm": 0.771787166595459,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 2.1283,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.9043369091072e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null