Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f294deb0acaf5fa2e5f9d497230122ffdcb95c899309b335237bd3e10f0c3b6
 size 156926880

 version https://git-lfs.github.com/spec/v1
+oid sha256:43540fa683dd1a8cd816e74fb607423276ccdb4b7a29f7beb269149182729349
 size 156926880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e852674f370eb61e8ae81eb11d59597c5487a3bc4d4397cd6806ed777402ad0d
 size 313998650

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c59060f809c699db5492c96df74c8e1ccd13deacf2c36454cd3fb7a708fd4ec
 size 313998650

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b10ba552649461620dbe891d8d8feec865c974519169d2d4bc45d08da5cd1fd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a429616f0b04fdfa3df055475f0271ee76dab28140be0e75a8c2ad9e31805720
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:212837ccb433e5430b061dc107b19dc09e932e6cfb62a751187d0903b7b0d94e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0016877067440761494,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,189 @@
       "eval_samples_per_second": 8.981,
       "eval_steps_per_second": 4.491,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -395,12 +578,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.0017309481435136e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.002531560116114224,
   "eval_steps": 25,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.981,
       "eval_steps_per_second": 4.491,
       "step": 50
+    },
+    {
+      "epoch": 0.0017214608789576722,
+      "grad_norm": 2.1474967002868652,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.6069,
+      "step": 51
+    },
+    {
+      "epoch": 0.0017552150138391953,
+      "grad_norm": 1.1795744895935059,
+      "learning_rate": 2.3135019582658802e-05,
+      "loss": 0.473,
+      "step": 52
+    },
+    {
+      "epoch": 0.0017889691487207183,
+      "grad_norm": 1.3834023475646973,
+      "learning_rate": 2.132117818244771e-05,
+      "loss": 0.5656,
+      "step": 53
+    },
+    {
+      "epoch": 0.0018227232836022414,
+      "grad_norm": 1.2573689222335815,
+      "learning_rate": 1.9561928549563968e-05,
+      "loss": 0.5592,
+      "step": 54
+    },
+    {
+      "epoch": 0.0018564774184837642,
+      "grad_norm": 1.0423628091812134,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.537,
+      "step": 55
+    },
+    {
+      "epoch": 0.0018902315533652872,
+      "grad_norm": 1.135725736618042,
+      "learning_rate": 1.622048961921699e-05,
+      "loss": 0.4532,
+      "step": 56
+    },
+    {
+      "epoch": 0.0019239856882468103,
+      "grad_norm": 1.1951916217803955,
+      "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.5232,
+      "step": 57
+    },
+    {
+      "epoch": 0.0019577398231283333,
+      "grad_norm": 1.4549823999404907,
+      "learning_rate": 1.3136133159493802e-05,
+      "loss": 0.4819,
+      "step": 58
+    },
+    {
+      "epoch": 0.0019914939580098563,
+      "grad_norm": 1.3570860624313354,
+      "learning_rate": 1.1697777844051105e-05,
+      "loss": 0.4457,
+      "step": 59
+    },
+    {
+      "epoch": 0.0020252480928913794,
+      "grad_norm": 1.134557843208313,
+      "learning_rate": 1.0332332985438248e-05,
+      "loss": 0.4754,
+      "step": 60
+    },
+    {
+      "epoch": 0.002059002227772902,
+      "grad_norm": 1.164859414100647,
+      "learning_rate": 9.042397785550405e-06,
+      "loss": 0.4898,
+      "step": 61
+    },
+    {
+      "epoch": 0.002092756362654425,
+      "grad_norm": 1.095713496208191,
+      "learning_rate": 7.830427709355725e-06,
+      "loss": 0.5173,
+      "step": 62
+    },
+    {
+      "epoch": 0.002126510497535948,
+      "grad_norm": 1.2956494092941284,
+      "learning_rate": 6.698729810778065e-06,
+      "loss": 0.4378,
+      "step": 63
+    },
+    {
+      "epoch": 0.002160264632417471,
+      "grad_norm": 1.5956240892410278,
+      "learning_rate": 5.649458341088915e-06,
+      "loss": 0.4518,
+      "step": 64
+    },
+    {
+      "epoch": 0.002194018767298994,
+      "grad_norm": 1.0486266613006592,
+      "learning_rate": 4.684610648167503e-06,
+      "loss": 0.4689,
+      "step": 65
+    },
+    {
+      "epoch": 0.002227772902180517,
+      "grad_norm": 0.9784994721412659,
+      "learning_rate": 3.8060233744356633e-06,
+      "loss": 0.4384,
+      "step": 66
+    },
+    {
+      "epoch": 0.0022615270370620402,
+      "grad_norm": 1.2614351511001587,
+      "learning_rate": 3.0153689607045845e-06,
+      "loss": 0.3726,
+      "step": 67
+    },
+    {
+      "epoch": 0.0022952811719435633,
+      "grad_norm": 1.102088451385498,
+      "learning_rate": 2.314152462588659e-06,
+      "loss": 0.4358,
+      "step": 68
+    },
+    {
+      "epoch": 0.002329035306825086,
+      "grad_norm": 1.3074065446853638,
+      "learning_rate": 1.70370868554659e-06,
+      "loss": 0.3848,
+      "step": 69
+    },
+    {
+      "epoch": 0.002362789441706609,
+      "grad_norm": 1.1175683736801147,
+      "learning_rate": 1.1851996440033319e-06,
+      "loss": 0.4579,
+      "step": 70
+    },
+    {
+      "epoch": 0.002396543576588132,
+      "grad_norm": 1.3784244060516357,
+      "learning_rate": 7.596123493895991e-07,
+      "loss": 0.5005,
+      "step": 71
+    },
+    {
+      "epoch": 0.002430297711469655,
+      "grad_norm": 1.2491179704666138,
+      "learning_rate": 4.277569313094809e-07,
+      "loss": 0.4487,
+      "step": 72
+    },
+    {
+      "epoch": 0.002464051846351178,
+      "grad_norm": 1.6952537298202515,
+      "learning_rate": 1.9026509541272275e-07,
+      "loss": 0.4381,
+      "step": 73
+    },
+    {
+      "epoch": 0.002497805981232701,
+      "grad_norm": 1.4215257167816162,
+      "learning_rate": 4.7588920907110094e-08,
+      "loss": 0.4436,
+      "step": 74
+    },
+    {
+      "epoch": 0.002531560116114224,
+      "grad_norm": 1.003847360610962,
+      "learning_rate": 0.0,
+      "loss": 0.4054,
+      "step": 75
+    },
+    {
+      "epoch": 0.002531560116114224,
+      "eval_loss": 0.46333596110343933,
+      "eval_runtime": 2779.4243,
+      "eval_samples_per_second": 8.976,
+      "eval_steps_per_second": 4.488,
+      "step": 75
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.0150141079977984e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null