Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e1cf1fdc2a44ffde9ffb1fad0353c12e72cfa3d960039cf32f1b043a6955a337
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:ada5cfce9d1b71669b8aeecd90003d4af5c9331dfe5552f9a832393aca75ae07
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:caacfa7e6318d9e29108f079bf6b954554d021f07d9f8c44cae84fcadcad88a3
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:f524a1baa5c77211d8050079d3c77c354e223bfc09a4af3e787ffeb4dd31c9d8
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd45af30c5644da013ee4fd7db6af9ee2909747b8472369436591ba162760c75
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f18c98802ac8900871e1432975b7f03f406766b05c035f9f90b52ad41185e096
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:49d60a69e2379be2053e816cbaff31e6c931b5922dd86c71c9eaf473299cbf62
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.021120811039143903,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,205 @@
       "learning_rate": 1.7860619515673033e-05,
       "loss": 1.4106,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +817,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.5405838075691e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.028161081385525203,
   "eval_steps": 9,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7860619515673033e-05,
       "loss": 1.4106,
       "step": 75
+    },
+    {
+      "epoch": 0.021402421852999155,
+      "grad_norm": 0.20162613689899445,
+      "learning_rate": 1.6543469682057106e-05,
+      "loss": 1.3914,
+      "step": 76
+    },
+    {
+      "epoch": 0.021684032666854407,
+      "grad_norm": 0.17795982956886292,
+      "learning_rate": 1.526708147705013e-05,
+      "loss": 1.4005,
+      "step": 77
+    },
+    {
+      "epoch": 0.02196564348070966,
+      "grad_norm": 0.21461506187915802,
+      "learning_rate": 1.4033009983067452e-05,
+      "loss": 1.4016,
+      "step": 78
+    },
+    {
+      "epoch": 0.02224725429456491,
+      "grad_norm": 0.15580390393733978,
+      "learning_rate": 1.2842758726130283e-05,
+      "loss": 1.4033,
+      "step": 79
+    },
+    {
+      "epoch": 0.022528865108420164,
+      "grad_norm": 0.26418066024780273,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 1.4117,
+      "step": 80
+    },
+    {
+      "epoch": 0.022810475922275416,
+      "grad_norm": 0.22687722742557526,
+      "learning_rate": 1.0599462319663905e-05,
+      "loss": 1.4085,
+      "step": 81
+    },
+    {
+      "epoch": 0.022810475922275416,
+      "eval_loss": 0.704688310623169,
+      "eval_runtime": 518.8374,
+      "eval_samples_per_second": 5.763,
+      "eval_steps_per_second": 0.721,
+      "step": 81
+    },
+    {
+      "epoch": 0.023092086736130668,
+      "grad_norm": 0.2125590443611145,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 1.406,
+      "step": 82
+    },
+    {
+      "epoch": 0.02337369754998592,
+      "grad_norm": 0.2060941457748413,
+      "learning_rate": 8.548121372247918e-06,
+      "loss": 1.4117,
+      "step": 83
+    },
+    {
+      "epoch": 0.023655308363841172,
+      "grad_norm": 0.22980840504169464,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 1.398,
+      "step": 84
+    },
+    {
+      "epoch": 0.023936919177696424,
+      "grad_norm": 0.1792149692773819,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 1.4137,
+      "step": 85
+    },
+    {
+      "epoch": 0.024218529991551677,
+      "grad_norm": 1.1202366352081299,
+      "learning_rate": 5.852620357053651e-06,
+      "loss": 1.4726,
+      "step": 86
+    },
+    {
+      "epoch": 0.02450014080540693,
+      "grad_norm": 0.18409371376037598,
+      "learning_rate": 5.060297685041659e-06,
+      "loss": 1.3985,
+      "step": 87
+    },
+    {
+      "epoch": 0.02478175161926218,
+      "grad_norm": 0.1613732874393463,
+      "learning_rate": 4.322727117869951e-06,
+      "loss": 1.4006,
+      "step": 88
+    },
+    {
+      "epoch": 0.025063362433117433,
+      "grad_norm": 0.2666328549385071,
+      "learning_rate": 3.6408072716606346e-06,
+      "loss": 1.4024,
+      "step": 89
+    },
+    {
+      "epoch": 0.025344973246972685,
+      "grad_norm": 0.19227731227874756,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 1.4133,
+      "step": 90
+    },
+    {
+      "epoch": 0.025344973246972685,
+      "eval_loss": 0.7046293616294861,
+      "eval_runtime": 518.987,
+      "eval_samples_per_second": 5.761,
+      "eval_steps_per_second": 0.721,
+      "step": 90
+    },
+    {
+      "epoch": 0.025626584060827937,
+      "grad_norm": 0.18015547096729279,
+      "learning_rate": 2.4471741852423237e-06,
+      "loss": 1.3942,
+      "step": 91
+    },
+    {
+      "epoch": 0.02590819487468319,
+      "grad_norm": 0.20062336325645447,
+      "learning_rate": 1.9369152030840556e-06,
+      "loss": 1.4004,
+      "step": 92
+    },
+    {
+      "epoch": 0.02618980568853844,
+      "grad_norm": 0.20917601883411407,
+      "learning_rate": 1.4852136862001764e-06,
+      "loss": 1.4097,
+      "step": 93
+    },
+    {
+      "epoch": 0.02647141650239369,
+      "grad_norm": 0.1842080056667328,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 1.4086,
+      "step": 94
+    },
+    {
+      "epoch": 0.026753027316248942,
+      "grad_norm": 0.2337813377380371,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 1.414,
+      "step": 95
+    },
+    {
+      "epoch": 0.027034638130104195,
+      "grad_norm": 0.1556297391653061,
+      "learning_rate": 4.865965629214819e-07,
+      "loss": 1.4119,
+      "step": 96
+    },
+    {
+      "epoch": 0.027316248943959447,
+      "grad_norm": 0.18028058111667633,
+      "learning_rate": 2.7390523158633554e-07,
+      "loss": 1.3931,
+      "step": 97
+    },
+    {
+      "epoch": 0.0275978597578147,
+      "grad_norm": 0.24062392115592957,
+      "learning_rate": 1.2179748700879012e-07,
+      "loss": 1.4069,
+      "step": 98
+    },
+    {
+      "epoch": 0.02787947057166995,
+      "grad_norm": 0.16729937493801117,
+      "learning_rate": 3.04586490452119e-08,
+      "loss": 1.3994,
+      "step": 99
+    },
+    {
+      "epoch": 0.02787947057166995,
+      "eval_loss": 0.7044768929481506,
+      "eval_runtime": 518.85,
+      "eval_samples_per_second": 5.763,
+      "eval_steps_per_second": 0.721,
+      "step": 99
+    },
+    {
+      "epoch": 0.028161081385525203,
+      "grad_norm": 0.17885710299015045,
+      "learning_rate": 0.0,
+      "loss": 1.3979,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2677214100468531e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null