Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:782d68c77b317b289b6d064726556dfc03f3a29ebd9c21d70aa692d258d8b94c
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6fdf6dd9d1f4d4b9cd88d1b93b4d823d7b339663307f6b0b46b5ada3ee3a91e
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de90258827ac1c1224a803c0178e47d2d8107e47d789509d370e78f588aeaa3e
 size 90365754

 version https://git-lfs.github.com/spec/v1
+oid sha256:15b2dc95425d7b4589fcda2c3fb2c2dfe7735f6107df9fdfa3cd94066b198146
 size 90365754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7da9f1139f61cc766662dec9be1a789e9af6ce81829e82037fdc4fc6fe2c5c18
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5ffb3bbcae13d3c8fcd45cf15a774d6b9dbb4edf8a95da70978b37d6d5b2b51
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05737234652897304,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.0247,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8322414098251776.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08605851979345955,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.0247,
       "step": 50
+    },
+    {
+      "epoch": 0.058519793459552494,
+      "grad_norm": 0.18079611659049988,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.0215,
+      "step": 51
+    },
+    {
+      "epoch": 0.05966724039013196,
+      "grad_norm": 0.12951500713825226,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.0297,
+      "step": 52
+    },
+    {
+      "epoch": 0.060814687320711415,
+      "grad_norm": 0.12222294509410858,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.0202,
+      "step": 53
+    },
+    {
+      "epoch": 0.06196213425129088,
+      "grad_norm": 0.13354460895061493,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.0278,
+      "step": 54
+    },
+    {
+      "epoch": 0.06196213425129088,
+      "eval_loss": 0.025066262111067772,
+      "eval_runtime": 41.5419,
+      "eval_samples_per_second": 17.669,
+      "eval_steps_per_second": 2.215,
+      "step": 54
+    },
+    {
+      "epoch": 0.06310958118187034,
+      "grad_norm": 0.18413366377353668,
+      "learning_rate": 5e-05,
+      "loss": 0.0195,
+      "step": 55
+    },
+    {
+      "epoch": 0.0642570281124498,
+      "grad_norm": 0.25024259090423584,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.0287,
+      "step": 56
+    },
+    {
+      "epoch": 0.06540447504302926,
+      "grad_norm": 0.12252403795719147,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.0268,
+      "step": 57
+    },
+    {
+      "epoch": 0.06655192197360872,
+      "grad_norm": 0.16308040916919708,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.0279,
+      "step": 58
+    },
+    {
+      "epoch": 0.06769936890418818,
+      "grad_norm": 0.13704562187194824,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.0157,
+      "step": 59
+    },
+    {
+      "epoch": 0.06884681583476764,
+      "grad_norm": 0.12924720346927643,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0219,
+      "step": 60
+    },
+    {
+      "epoch": 0.0699942627653471,
+      "grad_norm": 0.12658867239952087,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.02,
+      "step": 61
+    },
+    {
+      "epoch": 0.07114170969592656,
+      "grad_norm": 0.22576895356178284,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.0258,
+      "step": 62
+    },
+    {
+      "epoch": 0.07228915662650602,
+      "grad_norm": 0.15099763870239258,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.0212,
+      "step": 63
+    },
+    {
+      "epoch": 0.07228915662650602,
+      "eval_loss": 0.024402011185884476,
+      "eval_runtime": 41.4179,
+      "eval_samples_per_second": 17.722,
+      "eval_steps_per_second": 2.221,
+      "step": 63
+    },
+    {
+      "epoch": 0.07343660355708548,
+      "grad_norm": 0.1566763073205948,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.0128,
+      "step": 64
+    },
+    {
+      "epoch": 0.07458405048766495,
+      "grad_norm": 0.1659335196018219,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.0175,
+      "step": 65
+    },
+    {
+      "epoch": 0.0757314974182444,
+      "grad_norm": 0.210612952709198,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.0272,
+      "step": 66
+    },
+    {
+      "epoch": 0.07687894434882386,
+      "grad_norm": 0.13868023455142975,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.0214,
+      "step": 67
+    },
+    {
+      "epoch": 0.07802639127940333,
+      "grad_norm": 0.1765725314617157,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.0265,
+      "step": 68
+    },
+    {
+      "epoch": 0.07917383820998279,
+      "grad_norm": 0.24902477860450745,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.0297,
+      "step": 69
+    },
+    {
+      "epoch": 0.08032128514056225,
+      "grad_norm": 0.29836687445640564,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.0404,
+      "step": 70
+    },
+    {
+      "epoch": 0.0814687320711417,
+      "grad_norm": 0.19871705770492554,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.026,
+      "step": 71
+    },
+    {
+      "epoch": 0.08261617900172118,
+      "grad_norm": 0.19763556122779846,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.0242,
+      "step": 72
+    },
+    {
+      "epoch": 0.08261617900172118,
+      "eval_loss": 0.023439526557922363,
+      "eval_runtime": 41.6199,
+      "eval_samples_per_second": 17.636,
+      "eval_steps_per_second": 2.21,
+      "step": 72
+    },
+    {
+      "epoch": 0.08376362593230063,
+      "grad_norm": 0.19204814732074738,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.0244,
+      "step": 73
+    },
+    {
+      "epoch": 0.08491107286288009,
+      "grad_norm": 0.09625480324029922,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.0158,
+      "step": 74
+    },
+    {
+      "epoch": 0.08605851979345955,
+      "grad_norm": 0.2161574512720108,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.0282,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2628779532812288e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null