Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e529757192ef5dc556b9470603ea65e3cc8c78faf5af23c6612ce22c413c212
 size 1822364248

 version https://git-lfs.github.com/spec/v1
+oid sha256:508dc42434c79f91a7d49265ff32d83ecc2da7320a13c79ea5555038779e1935
 size 1822364248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13527376c2b15a01b0453cda0251ca5ff7a5afcd09d8baa908668c707b8e83ff
 size 650683548

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd6a9817f9474b1499bb8c5bc9ff5ea96d3ac273cd531e12f1dd34daec7e70f1
 size 650683548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3162581f3942edb8c96dc2f3201fd2bea68a9cc32a069e77933e7f946e387625
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:27b422f9955c71f5b3366e8b201f25ae0299d3cd4bbe89f91e7d4308a171d786
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f59a103009f3230e51c40288ef6a33247523fa398934878b1e22a81660cbade8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d1650f5062195d8ee65b24ab00a137ab48cccbff41f41ba060d4208547a763c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8,
   "eval_steps": 500,
-  "global_step": 225,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1357,13 +1357,163 @@
       "learning_rate": 0.0002,
       "loss": 0.5217,
       "step": 225
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 2,
   "save_steps": 25,
-  "total_flos": 2.9201598472912896e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0002,
       "loss": 0.5217,
       "step": 225
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0002,
+      "loss": 0.5664,
+      "step": 226
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 0.5245,
+      "step": 227
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002,
+      "loss": 0.4929,
+      "step": 228
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002,
+      "loss": 0.4806,
+      "step": 229
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0002,
+      "loss": 0.4499,
+      "step": 230
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0002,
+      "loss": 0.4791,
+      "step": 231
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0002,
+      "loss": 0.4916,
+      "step": 232
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0002,
+      "loss": 0.5022,
+      "step": 233
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0002,
+      "loss": 0.4708,
+      "step": 234
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0002,
+      "loss": 0.4333,
+      "step": 235
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0002,
+      "loss": 0.4246,
+      "step": 236
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.4481,
+      "step": 237
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0002,
+      "loss": 0.4252,
+      "step": 238
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0002,
+      "loss": 0.4242,
+      "step": 239
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0002,
+      "loss": 0.4012,
+      "step": 240
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0002,
+      "loss": 0.3669,
+      "step": 241
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.3521,
+      "step": 242
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 0.366,
+      "step": 243
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002,
+      "loss": 0.3356,
+      "step": 244
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0002,
+      "loss": 0.3463,
+      "step": 245
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0002,
+      "loss": 0.3673,
+      "step": 246
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.3366,
+      "step": 247
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0002,
+      "loss": 0.3254,
+      "step": 248
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0002,
+      "loss": 0.3334,
+      "step": 249
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002,
+      "loss": 0.4874,
+      "step": 250
     }
   ],
   "logging_steps": 1,
   "max_steps": 250,
   "num_train_epochs": 2,
   "save_steps": 25,
+  "total_flos": 3.2208467410059264e+16,
   "trial_name": null,
   "trial_params": null
 }