Training in progress, step 75, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85dc6a9117395ffd334908313ec3b7e2315a20701200d313867b89c8b2bc7625
 size 50503544

 version https://git-lfs.github.com/spec/v1
+oid sha256:6915cfdfb94f76634f34cf0dfffccc06ddee55c5da90212f2d31c7d2a52ee8f5
 size 50503544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:105bb1ff1f8dba1cce6f74d703a5eb313772fd0a72dc186600f97c358798e311
 size 101184122

 version https://git-lfs.github.com/spec/v1
+oid sha256:29669d5489428719279eeabc61726de8acd7be9706731306f78b8154b7a59d7a
 size 101184122

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87d0232b9ccff07686cfc810ec869769f203462f49e711f71027440d829ee580
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c24e3a0867bbf92caf301a1a20f0c479bf5c2ee6a8517aa42c8c178899c99e09
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da58c16ff4044ab803801ef38f08c583eaf5db01211f9109b9c9a6d6b1533ded
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:93bf25ccae0a235b7172a6f610240e23300cd6029de801e81c7a5b125f2c4141
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4a33f582f8be3b5e163b7e3e4e25f954414d05c290f00ab0b23182a29c2d18a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:084c7b5235ce94c3a9317566f0b85e771c642e908ed595c6c85e016ecbd54cbe
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ca70537e176d98e3af0ed7ec7090d20b849a4d977ef176a82942c5ef1fe44d8
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:04f1b7fec83cfa2275e83b573eeec59b026efef3468e1637ebb2892b10515187
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.028993911278631487,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.8931,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.05873754406912e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04349086691794723,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 0.8931,
       "step": 50
+    },
+    {
+      "epoch": 0.029573789504204116,
+      "grad_norm": 5.76321268081665,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 0.8438,
+      "step": 51
+    },
+    {
+      "epoch": 0.030153667729776748,
+      "grad_norm": 6.54787540435791,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 0.8288,
+      "step": 52
+    },
+    {
+      "epoch": 0.030733545955349377,
+      "grad_norm": 5.9420084953308105,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 0.8325,
+      "step": 53
+    },
+    {
+      "epoch": 0.031313424180922006,
+      "grad_norm": 4.388433456420898,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 0.806,
+      "step": 54
+    },
+    {
+      "epoch": 0.031313424180922006,
+      "eval_loss": 0.8188083171844482,
+      "eval_runtime": 20.6473,
+      "eval_samples_per_second": 281.296,
+      "eval_steps_per_second": 8.815,
+      "step": 54
+    },
+    {
+      "epoch": 0.031893302406494635,
+      "grad_norm": 4.667327404022217,
+      "learning_rate": 5e-05,
+      "loss": 0.8285,
+      "step": 55
+    },
+    {
+      "epoch": 0.032473180632067264,
+      "grad_norm": 4.210194110870361,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 0.8421,
+      "step": 56
+    },
+    {
+      "epoch": 0.03305305885763989,
+      "grad_norm": 6.773632049560547,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 0.8522,
+      "step": 57
+    },
+    {
+      "epoch": 0.03363293708321253,
+      "grad_norm": 4.837597846984863,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 0.7556,
+      "step": 58
+    },
+    {
+      "epoch": 0.03421281530878516,
+      "grad_norm": 7.49063777923584,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 0.8624,
+      "step": 59
+    },
+    {
+      "epoch": 0.03479269353435779,
+      "grad_norm": 2.9477198123931885,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.7574,
+      "step": 60
+    },
+    {
+      "epoch": 0.035372571759930416,
+      "grad_norm": 4.244167327880859,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 0.8535,
+      "step": 61
+    },
+    {
+      "epoch": 0.035952449985503045,
+      "grad_norm": 4.019453525543213,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 0.7877,
+      "step": 62
+    },
+    {
+      "epoch": 0.036532328211075674,
+      "grad_norm": 4.17199182510376,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.8334,
+      "step": 63
+    },
+    {
+      "epoch": 0.036532328211075674,
+      "eval_loss": 0.789574921131134,
+      "eval_runtime": 20.9404,
+      "eval_samples_per_second": 277.358,
+      "eval_steps_per_second": 8.691,
+      "step": 63
+    },
+    {
+      "epoch": 0.0371122064366483,
+      "grad_norm": 3.5703322887420654,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.8385,
+      "step": 64
+    },
+    {
+      "epoch": 0.03769208466222093,
+      "grad_norm": 3.0590972900390625,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.8761,
+      "step": 65
+    },
+    {
+      "epoch": 0.03827196288779356,
+      "grad_norm": 3.206594944000244,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 0.7679,
+      "step": 66
+    },
+    {
+      "epoch": 0.038851841113366196,
+      "grad_norm": 2.16125750541687,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 0.8023,
+      "step": 67
+    },
+    {
+      "epoch": 0.039431719338938825,
+      "grad_norm": 3.744929313659668,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 0.7697,
+      "step": 68
+    },
+    {
+      "epoch": 0.040011597564511454,
+      "grad_norm": 4.342959403991699,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 0.8038,
+      "step": 69
+    },
+    {
+      "epoch": 0.04059147579008408,
+      "grad_norm": 2.113845109939575,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 0.7157,
+      "step": 70
+    },
+    {
+      "epoch": 0.04117135401565671,
+      "grad_norm": 3.42581844329834,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 0.7877,
+      "step": 71
+    },
+    {
+      "epoch": 0.04175123224122934,
+      "grad_norm": 3.2024004459381104,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 0.8178,
+      "step": 72
+    },
+    {
+      "epoch": 0.04175123224122934,
+      "eval_loss": 0.757203996181488,
+      "eval_runtime": 20.7013,
+      "eval_samples_per_second": 280.562,
+      "eval_steps_per_second": 8.792,
+      "step": 72
+    },
+    {
+      "epoch": 0.04233111046680197,
+      "grad_norm": 3.951155662536621,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.7732,
+      "step": 73
+    },
+    {
+      "epoch": 0.0429109886923746,
+      "grad_norm": 2.8352742195129395,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 0.7979,
+      "step": 74
+    },
+    {
+      "epoch": 0.04349086691794723,
+      "grad_norm": 3.528505563735962,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 0.836,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.08810631610368e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null