Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70f4d3708569769a2bb09504aa490d3f01727eef4b2ede5c60725b57383cefcc
 size 203456160

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd1a699c899c66c3483c0bc61a46da1b71da65594636ee6e96eab0e20556bab9
 size 203456160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bc0258140206734c81dde9e46303aeec632b72dbb874184b3b70db25c27fade
 size 407121750

 version https://git-lfs.github.com/spec/v1
+oid sha256:338ab50d96effecf99a67c36fac532876cb2c07f93b975c541c4e91b5e2d4b4a
 size 407121750

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34a196dd77009d98d04038c803d6a3fbc51508779ec9f6cedeec720690bd3b9c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e9254c9a7c8d26ee556f3a0f80928865acf8ebd0e485e4445b3a5b7eb0994e4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3f6891a2dad4098258cacbb534eda6cb23344f32c27a937c7da2508a5fd6662
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef593f391c66ba3ea6e8dea3b2aa8e19ae1f574e3c6a18c96ee14293016120aa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07598784194528875,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 3.719,
       "eval_steps_per_second": 1.873,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8294216761344000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1519756838905775,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.719,
       "eval_steps_per_second": 1.873,
       "step": 25
+    },
+    {
+      "epoch": 0.0790273556231003,
+      "grad_norm": 10.619952201843262,
+      "learning_rate": 3.84324902086706e-05,
+      "loss": 0.971,
+      "step": 26
+    },
+    {
+      "epoch": 0.08206686930091185,
+      "grad_norm": 8.14050579071045,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.4617,
+      "step": 27
+    },
+    {
+      "epoch": 0.0851063829787234,
+      "grad_norm": 8.265830993652344,
+      "learning_rate": 3.654371533087586e-05,
+      "loss": 0.9466,
+      "step": 28
+    },
+    {
+      "epoch": 0.08814589665653495,
+      "grad_norm": 14.07198429107666,
+      "learning_rate": 3.556545654351749e-05,
+      "loss": 1.1971,
+      "step": 29
+    },
+    {
+      "epoch": 0.0911854103343465,
+      "grad_norm": 7.206356525421143,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 0.5795,
+      "step": 30
+    },
+    {
+      "epoch": 0.09422492401215805,
+      "grad_norm": 6.850846290588379,
+      "learning_rate": 3.355050358314172e-05,
+      "loss": 0.7625,
+      "step": 31
+    },
+    {
+      "epoch": 0.0972644376899696,
+      "grad_norm": 18.45955467224121,
+      "learning_rate": 3.251764498760683e-05,
+      "loss": 0.9912,
+      "step": 32
+    },
+    {
+      "epoch": 0.10030395136778116,
+      "grad_norm": 20.52401351928711,
+      "learning_rate": 3.147047612756302e-05,
+      "loss": 1.1835,
+      "step": 33
+    },
+    {
+      "epoch": 0.1033434650455927,
+      "grad_norm": 7.496253490447998,
+      "learning_rate": 3.0410990348452573e-05,
+      "loss": 0.512,
+      "step": 34
+    },
+    {
+      "epoch": 0.10638297872340426,
+      "grad_norm": 8.358292579650879,
+      "learning_rate": 2.9341204441673266e-05,
+      "loss": 0.7951,
+      "step": 35
+    },
+    {
+      "epoch": 0.1094224924012158,
+      "grad_norm": 6.15350866317749,
+      "learning_rate": 2.8263154805501297e-05,
+      "loss": 0.8166,
+      "step": 36
+    },
+    {
+      "epoch": 0.11246200607902736,
+      "grad_norm": 8.419435501098633,
+      "learning_rate": 2.717889356869146e-05,
+      "loss": 1.0166,
+      "step": 37
+    },
+    {
+      "epoch": 0.11550151975683891,
+      "grad_norm": 7.933197975158691,
+      "learning_rate": 2.6090484684133404e-05,
+      "loss": 1.1009,
+      "step": 38
+    },
+    {
+      "epoch": 0.11854103343465046,
+      "grad_norm": 8.382092475891113,
+      "learning_rate": 2.5e-05,
+      "loss": 0.7886,
+      "step": 39
+    },
+    {
+      "epoch": 0.12158054711246201,
+      "grad_norm": 6.936803817749023,
+      "learning_rate": 2.3909515315866605e-05,
+      "loss": 0.9169,
+      "step": 40
+    },
+    {
+      "epoch": 0.12462006079027356,
+      "grad_norm": 8.673044204711914,
+      "learning_rate": 2.2821106431308544e-05,
+      "loss": 0.8285,
+      "step": 41
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "grad_norm": 7.593755722045898,
+      "learning_rate": 2.173684519449872e-05,
+      "loss": 0.9036,
+      "step": 42
+    },
+    {
+      "epoch": 0.13069908814589665,
+      "grad_norm": 34.3929557800293,
+      "learning_rate": 2.0658795558326743e-05,
+      "loss": 1.1941,
+      "step": 43
+    },
+    {
+      "epoch": 0.1337386018237082,
+      "grad_norm": 16.547935485839844,
+      "learning_rate": 1.958900965154743e-05,
+      "loss": 1.3811,
+      "step": 44
+    },
+    {
+      "epoch": 0.13677811550151975,
+      "grad_norm": 32.15914535522461,
+      "learning_rate": 1.852952387243698e-05,
+      "loss": 1.1523,
+      "step": 45
+    },
+    {
+      "epoch": 0.1398176291793313,
+      "grad_norm": 12.116189956665039,
+      "learning_rate": 1.7482355012393177e-05,
+      "loss": 0.9528,
+      "step": 46
+    },
+    {
+      "epoch": 0.14285714285714285,
+      "grad_norm": 22.938390731811523,
+      "learning_rate": 1.6449496416858284e-05,
+      "loss": 2.451,
+      "step": 47
+    },
+    {
+      "epoch": 0.1458966565349544,
+      "grad_norm": 41.893733978271484,
+      "learning_rate": 1.5432914190872757e-05,
+      "loss": 1.3534,
+      "step": 48
+    },
+    {
+      "epoch": 0.14893617021276595,
+      "grad_norm": 29.780670166015625,
+      "learning_rate": 1.443454345648252e-05,
+      "loss": 1.8623,
+      "step": 49
+    },
+    {
+      "epoch": 0.1519756838905775,
+      "grad_norm": 17.589799880981445,
+      "learning_rate": 1.3456284669124158e-05,
+      "loss": 1.9448,
+      "step": 50
+    },
+    {
+      "epoch": 0.1519756838905775,
+      "eval_loss": 1.0934056043624878,
+      "eval_runtime": 37.3691,
+      "eval_samples_per_second": 3.72,
+      "eval_steps_per_second": 1.873,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.6588433522688e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null