Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:332eda99b9db579fb560895f57472996cf13bae56464e92c846e4d294390b8ae
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf738a4d25c018e9e8c7a14fceeddf929ccb4c54aec32c293e32562753ea2d09
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7aa56c376b28fa8750d3a80a5f9181e5580d7d76c001cafded156c8183296edb
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf1431e8a8936b809a68f374cc07f54dcb9dd5ecfe6e3d51a24e73bc63631714
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0160325f3cfb2789544f924daf3b9721842346abd05e8dbfa142d277b468e99a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff117b2b37bde812847adc6eed8bdc759c3c07f5d1cbee1f5506533e03306f92
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c931ece4da598a541d357f6c98f67481603252e193960022d37ddd49c584b1f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2336448598130841,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.3577,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.63364550475776e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4672897196261682,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 9.330127018922194e-05,
       "loss": 0.3577,
       "step": 25
+    },
+    {
+      "epoch": 0.24299065420560748,
+      "grad_norm": 3.2541680335998535,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.383,
+      "step": 26
+    },
+    {
+      "epoch": 0.2523364485981308,
+      "grad_norm": 2.778571367263794,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.3865,
+      "step": 27
+    },
+    {
+      "epoch": 0.2523364485981308,
+      "eval_loss": 0.21326401829719543,
+      "eval_runtime": 8.8619,
+      "eval_samples_per_second": 10.156,
+      "eval_steps_per_second": 1.354,
+      "step": 27
+    },
+    {
+      "epoch": 0.2616822429906542,
+      "grad_norm": 4.196018695831299,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.4486,
+      "step": 28
+    },
+    {
+      "epoch": 0.27102803738317754,
+      "grad_norm": 4.145666599273682,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.4204,
+      "step": 29
+    },
+    {
+      "epoch": 0.2803738317757009,
+      "grad_norm": 2.7288219928741455,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.3265,
+      "step": 30
+    },
+    {
+      "epoch": 0.2897196261682243,
+      "grad_norm": 2.6117634773254395,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.3738,
+      "step": 31
+    },
+    {
+      "epoch": 0.29906542056074764,
+      "grad_norm": 3.820230484008789,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.3816,
+      "step": 32
+    },
+    {
+      "epoch": 0.308411214953271,
+      "grad_norm": 1.249776005744934,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.263,
+      "step": 33
+    },
+    {
+      "epoch": 0.3177570093457944,
+      "grad_norm": 1.3800694942474365,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.2968,
+      "step": 34
+    },
+    {
+      "epoch": 0.32710280373831774,
+      "grad_norm": 1.2462210655212402,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.2924,
+      "step": 35
+    },
+    {
+      "epoch": 0.3364485981308411,
+      "grad_norm": 1.8340442180633545,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.2891,
+      "step": 36
+    },
+    {
+      "epoch": 0.3364485981308411,
+      "eval_loss": 0.15187448263168335,
+      "eval_runtime": 8.8701,
+      "eval_samples_per_second": 10.146,
+      "eval_steps_per_second": 1.353,
+      "step": 36
+    },
+    {
+      "epoch": 0.34579439252336447,
+      "grad_norm": 1.1207772493362427,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.2535,
+      "step": 37
+    },
+    {
+      "epoch": 0.35514018691588783,
+      "grad_norm": 0.8222551941871643,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.232,
+      "step": 38
+    },
+    {
+      "epoch": 0.3644859813084112,
+      "grad_norm": 1.3257524967193604,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.3135,
+      "step": 39
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 1.2347744703292847,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.2617,
+      "step": 40
+    },
+    {
+      "epoch": 0.38317757009345793,
+      "grad_norm": 1.18996000289917,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.2631,
+      "step": 41
+    },
+    {
+      "epoch": 0.3925233644859813,
+      "grad_norm": 0.9912763237953186,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.2337,
+      "step": 42
+    },
+    {
+      "epoch": 0.40186915887850466,
+      "grad_norm": 1.4678013324737549,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 0.2809,
+      "step": 43
+    },
+    {
+      "epoch": 0.411214953271028,
+      "grad_norm": 1.3919346332550049,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.2653,
+      "step": 44
+    },
+    {
+      "epoch": 0.4205607476635514,
+      "grad_norm": 1.550614833831787,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.2985,
+      "step": 45
+    },
+    {
+      "epoch": 0.4205607476635514,
+      "eval_loss": 0.13848339021205902,
+      "eval_runtime": 8.8715,
+      "eval_samples_per_second": 10.145,
+      "eval_steps_per_second": 1.353,
+      "step": 45
+    },
+    {
+      "epoch": 0.42990654205607476,
+      "grad_norm": 1.1843987703323364,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.2799,
+      "step": 46
+    },
+    {
+      "epoch": 0.4392523364485981,
+      "grad_norm": 1.0948872566223145,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 0.2766,
+      "step": 47
+    },
+    {
+      "epoch": 0.4485981308411215,
+      "grad_norm": 0.6759229898452759,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.2409,
+      "step": 48
+    },
+    {
+      "epoch": 0.45794392523364486,
+      "grad_norm": 0.7522386908531189,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.2441,
+      "step": 49
+    },
+    {
+      "epoch": 0.4672897196261682,
+      "grad_norm": 0.9243168234825134,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.2522,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.26729100951552e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null