Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e8f834d42621a36d64c6d12be33beb7dea9ce22871ef58eb3ce0dafd962c624
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:f046435dabb221da39b147c8cfb3f11da3b67e8e8051a4fc212f60bed1083d2e
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfa527998caa0c9d8d6f044711a9ff04addca63138395cb122820a013c42bc7f
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbea3b3ffe0e52f2fdc4228af1355339af573de3f655b96dba4b57a820d46a32
 size 671466706

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f06d11f5bd9ab818954d1d9cc87411a300635525aca8758d1a9cb915ffd4fcb8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed42de57561b54a72d8064407f8f024c0714e2e87ab15e261d34ed1acad4c59c
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f6f8d785f55aa86241bd7662c3d0954f8429d567efeefbe0f7b4dbc579afb2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e523bdf8632f90f13687d216d1f57f673bf97c6dd57de7836b2f9680d43301fc
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d5cc0abc20eeae957058c17a017494bee23580826e783b8089b5ead7d6012d7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ffafedff9859b32355f15c8d599f6a98e106616c6caf41b12332d77fd8f27284
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:329910af47f2bee64b83832e563a6d744fe8cb4888e88d29296e590af4864055
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:47a306e34ce9d992d69699f561634adebe4fbefa2de06dcb48c8b7af575a7075
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.51513200257566,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 14.312,
       "eval_steps_per_second": 3.721,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -212,12 +395,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.984041808658432e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.039278815196394,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.312,
       "eval_steps_per_second": 3.721,
       "step": 25
+    },
+    {
+      "epoch": 0.5357372826786864,
+      "grad_norm": 1.0864949226379395,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 1.3438,
+      "step": 26
+    },
+    {
+      "epoch": 0.5563425627817128,
+      "grad_norm": 1.1756632328033447,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 1.475,
+      "step": 27
+    },
+    {
+      "epoch": 0.5769478428847392,
+      "grad_norm": 1.0386406183242798,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 1.3067,
+      "step": 28
+    },
+    {
+      "epoch": 0.5975531229877656,
+      "grad_norm": 1.084520697593689,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 1.3079,
+      "step": 29
+    },
+    {
+      "epoch": 0.6181584030907921,
+      "grad_norm": 1.199838638305664,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 1.2165,
+      "step": 30
+    },
+    {
+      "epoch": 0.6387636831938184,
+      "grad_norm": 1.2528841495513916,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 1.2907,
+      "step": 31
+    },
+    {
+      "epoch": 0.6593689632968448,
+      "grad_norm": 1.1232812404632568,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 1.2557,
+      "step": 32
+    },
+    {
+      "epoch": 0.6799742433998712,
+      "grad_norm": 1.1742340326309204,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 1.2703,
+      "step": 33
+    },
+    {
+      "epoch": 0.7005795235028976,
+      "grad_norm": 1.1688557863235474,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 1.2046,
+      "step": 34
+    },
+    {
+      "epoch": 0.721184803605924,
+      "grad_norm": 1.1665050983428955,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 1.1234,
+      "step": 35
+    },
+    {
+      "epoch": 0.7417900837089504,
+      "grad_norm": 1.281623125076294,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 1.1562,
+      "step": 36
+    },
+    {
+      "epoch": 0.7623953638119768,
+      "grad_norm": 1.1950199604034424,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 1.4527,
+      "step": 37
+    },
+    {
+      "epoch": 0.7830006439150032,
+      "grad_norm": 1.2145071029663086,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 1.4938,
+      "step": 38
+    },
+    {
+      "epoch": 0.8036059240180297,
+      "grad_norm": 1.1486097574234009,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 1.3334,
+      "step": 39
+    },
+    {
+      "epoch": 0.824211204121056,
+      "grad_norm": 1.0132158994674683,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 1.3069,
+      "step": 40
+    },
+    {
+      "epoch": 0.8448164842240824,
+      "grad_norm": 1.069280743598938,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 1.2995,
+      "step": 41
+    },
+    {
+      "epoch": 0.8654217643271088,
+      "grad_norm": 1.0366171598434448,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 1.1784,
+      "step": 42
+    },
+    {
+      "epoch": 0.8860270444301352,
+      "grad_norm": 0.9968025088310242,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 1.1579,
+      "step": 43
+    },
+    {
+      "epoch": 0.9066323245331617,
+      "grad_norm": 1.0707521438598633,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 1.2042,
+      "step": 44
+    },
+    {
+      "epoch": 0.927237604636188,
+      "grad_norm": 1.0155386924743652,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 1.164,
+      "step": 45
+    },
+    {
+      "epoch": 0.9478428847392144,
+      "grad_norm": 1.0132240056991577,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 1.1677,
+      "step": 46
+    },
+    {
+      "epoch": 0.9684481648422408,
+      "grad_norm": 1.047545075416565,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 1.0935,
+      "step": 47
+    },
+    {
+      "epoch": 0.9890534449452673,
+      "grad_norm": 1.1519137620925903,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 1.0777,
+      "step": 48
+    },
+    {
+      "epoch": 1.0186735350933678,
+      "grad_norm": 3.185882806777954,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 2.4695,
+      "step": 49
+    },
+    {
+      "epoch": 1.039278815196394,
+      "grad_norm": 1.053970456123352,
+      "learning_rate": 1e-05,
+      "loss": 1.3533,
+      "step": 50
+    },
+    {
+      "epoch": 1.039278815196394,
+      "eval_loss": 1.2204114198684692,
+      "eval_runtime": 3.4847,
+      "eval_samples_per_second": 14.348,
+      "eval_steps_per_second": 3.731,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.968083617316864e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null