Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2321b3d4c1f73930d39cc681c79c49fd5f9e208bf5924ab3c74f954ca7ddb1fa
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa9d92e8a4b263401b3c8acbfd025f3f18fafa3a365efa160b74a603fc218db4
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b8777e023fa8118ca4648eefba3d1daa663e5f6861fb37317d7c6cefc6f4ee6
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:41598ae70d9e637df33ca7c77a00581fa7d14f3ef39ee2237c096e19266debec
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f41766750365a17152f64d66c1dd9d98507ffda690c77e6d3394aec038b70033
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b563b6cd38b3e36e115b0c8c27439de7b7d55db6c3bd692a72c0c1e95e9df5e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04656938838869916,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,205 @@
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.0864,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +817,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.8980011587403776e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06209251785159888,
   "eval_steps": 9,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7860619515673033e-05,
       "loss": 0.0864,
       "step": 75
+    },
+    {
+      "epoch": 0.04719031356721515,
+      "grad_norm": 0.1407470554113388,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 0.2138,
+      "step": 76
+    },
+    {
+      "epoch": 0.04781123874573114,
+      "grad_norm": 0.0823465958237648,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 0.1361,
+      "step": 77
+    },
+    {
+      "epoch": 0.04843216392424713,
+      "grad_norm": 0.09610020369291306,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 0.1357,
+      "step": 78
+    },
+    {
+      "epoch": 0.04905308910276312,
+      "grad_norm": 0.06676094979047775,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 0.1109,
+      "step": 79
+    },
+    {
+      "epoch": 0.04967401428127911,
+      "grad_norm": 0.07106545567512512,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.0834,
+      "step": 80
+    },
+    {
+      "epoch": 0.050294939459795095,
+      "grad_norm": 0.06571792811155319,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 0.2109,
+      "step": 81
+    },
+    {
+      "epoch": 0.050294939459795095,
+      "eval_loss": 0.07751059532165527,
+      "eval_runtime": 196.8663,
+      "eval_samples_per_second": 6.888,
+      "eval_steps_per_second": 0.864,
+      "step": 81
+    },
+    {
+      "epoch": 0.05091586463831108,
+      "grad_norm": 0.06973174959421158,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.085,
+      "step": 82
+    },
+    {
+      "epoch": 0.05153678981682707,
+      "grad_norm": 0.09078380465507507,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 0.1149,
+      "step": 83
+    },
+    {
+      "epoch": 0.05215771499534306,
+      "grad_norm": 0.08853405714035034,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.1259,
+      "step": 84
+    },
+    {
+      "epoch": 0.05277864017385905,
+      "grad_norm": 0.046835608780384064,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.0831,
+      "step": 85
+    },
+    {
+      "epoch": 0.05339956535237504,
+      "grad_norm": 0.06550367176532745,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 0.103,
+      "step": 86
+    },
+    {
+      "epoch": 0.05402049053089103,
+      "grad_norm": 0.10945193469524384,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 0.1612,
+      "step": 87
+    },
+    {
+      "epoch": 0.05464141570940702,
+      "grad_norm": 0.07449627667665482,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 0.1054,
+      "step": 88
+    },
+    {
+      "epoch": 0.055262340887923006,
+      "grad_norm": 0.06876291334629059,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 0.1125,
+      "step": 89
+    },
+    {
+      "epoch": 0.055883266066438994,
+      "grad_norm": 0.0853685587644577,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.2923,
+      "step": 90
+    },
+    {
+      "epoch": 0.055883266066438994,
+      "eval_loss": 0.07741052657365799,
+      "eval_runtime": 196.569,
+      "eval_samples_per_second": 6.898,
+      "eval_steps_per_second": 0.865,
+      "step": 90
+    },
+    {
+      "epoch": 0.05650419124495498,
+      "grad_norm": 0.07243622839450836,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 0.0354,
+      "step": 91
+    },
+    {
+      "epoch": 0.05712511642347097,
+      "grad_norm": 0.07864990830421448,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 0.1801,
+      "step": 92
+    },
+    {
+      "epoch": 0.05774604160198696,
+      "grad_norm": 0.06895054131746292,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 0.1401,
+      "step": 93
+    },
+    {
+      "epoch": 0.058366966780502946,
+      "grad_norm": 0.055806513875722885,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.1258,
+      "step": 94
+    },
+    {
+      "epoch": 0.05898789195901894,
+      "grad_norm": 0.08117268234491348,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.1295,
+      "step": 95
+    },
+    {
+      "epoch": 0.05960881713753493,
+      "grad_norm": 0.0856701135635376,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 0.0834,
+      "step": 96
+    },
+    {
+      "epoch": 0.06022974231605092,
+      "grad_norm": 0.05110366269946098,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 0.1204,
+      "step": 97
+    },
+    {
+      "epoch": 0.060850667494566905,
+      "grad_norm": 0.07894067466259003,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 0.0513,
+      "step": 98
+    },
+    {
+      "epoch": 0.061471592673082893,
+      "grad_norm": 0.08335493505001068,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 0.191,
+      "step": 99
+    },
+    {
+      "epoch": 0.061471592673082893,
+      "eval_loss": 0.07739631831645966,
+      "eval_runtime": 196.8437,
+      "eval_samples_per_second": 6.889,
+      "eval_steps_per_second": 0.864,
+      "step": 99
+    },
+    {
+      "epoch": 0.06209251785159888,
+      "grad_norm": 0.07276061922311783,
+      "learning_rate": 0.0,
+      "loss": 0.1111,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 2.5264363250122752e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null