Training in progress, step 150, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:898187ac4dc54b6fe32df3ddb606672d8a62ca64801d7c926a8fbf4b255ca4c0
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:c827c21dcd3a257819246a55c11b3f50909e9233dcfebd2814a25bd3ee845ac3
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4399e1804531fc87e1ac5f7a7170f89b93c7e556ca4555442c5188c694002ed
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:68052fd8b96c1f2271f1b7eff022a919e3355f62ce1a8e7e2f099d3fa9d51815
 size 157104826

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d11e9db1a69c8b3aa71d6794f7105b9b3b18b0b537906797f11d1746682e19f2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:502e686da367d3f37771f4b324ac8e96576dc0d12a4d01dd2b6dd1a0e08ee790
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7d4da2aa7d6170b1684b522ed59d44ff0fe7c714fe20c05a51d5ef0c199a2b6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c293ea2ced33e6b1a9a6d31cc9d0df0ce2794a92d3016ca4577e7bf7d0183635
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ef430fb8227c2b1ece5b80d0b2e6b1c07954d9cdb4518732b5f6c99f3b7153a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:77d4a73ace90f0be2d58c57db7ec4e9dc9586b6130ee4f221abc20fcb20f9193
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f271c238adb206f83c31b100c58141ab67ac82a9b1d63f84c05f095953df840f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd52b163a28bcfe6d938bfe3e9051ccaeb68b57c36b5805f8c7ca75b025892ec
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dffb3920605e0be4e0f1770a07e116283318714a6d253c64a940af9a5c34766c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f80d648856420cec2afc4a26fe030d14fe1888f66711c6de8ea302f1ee36d8b9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.4398374557495117,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.9829519275072953,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 71.931,
       "eval_steps_per_second": 18.702,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.296162210414592e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.4083755016326904,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 1.474427891260943,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 71.931,
       "eval_steps_per_second": 18.702,
       "step": 100
+    },
+    {
+      "epoch": 0.9927814467823683,
+      "grad_norm": 0.9641188383102417,
+      "learning_rate": 0.00016227631426330124,
+      "loss": 2.2486,
+      "step": 101
+    },
+    {
+      "epoch": 1.0026109660574412,
+      "grad_norm": 1.2361067533493042,
+      "learning_rate": 0.00016149049941099528,
+      "loss": 3.1568,
+      "step": 102
+    },
+    {
+      "epoch": 1.0124404853325142,
+      "grad_norm": 0.6794304251670837,
+      "learning_rate": 0.00016069880522572597,
+      "loss": 2.0051,
+      "step": 103
+    },
+    {
+      "epoch": 1.0222700046075872,
+      "grad_norm": 0.7373532056808472,
+      "learning_rate": 0.00015990132210540707,
+      "loss": 2.1212,
+      "step": 104
+    },
+    {
+      "epoch": 1.03209952388266,
+      "grad_norm": 0.7815002202987671,
+      "learning_rate": 0.00015909814110894938,
+      "loss": 2.1963,
+      "step": 105
+    },
+    {
+      "epoch": 1.041929043157733,
+      "grad_norm": 0.8411288261413574,
+      "learning_rate": 0.00015828935394586365,
+      "loss": 2.108,
+      "step": 106
+    },
+    {
+      "epoch": 1.051758562432806,
+      "grad_norm": 0.9140182137489319,
+      "learning_rate": 0.00015747505296578884,
+      "loss": 2.014,
+      "step": 107
+    },
+    {
+      "epoch": 1.0615880817078789,
+      "grad_norm": 0.8995840549468994,
+      "learning_rate": 0.0001566553311479473,
+      "loss": 2.1216,
+      "step": 108
+    },
+    {
+      "epoch": 1.071417600982952,
+      "grad_norm": 0.8572644591331482,
+      "learning_rate": 0.0001558302820905281,
+      "loss": 2.1224,
+      "step": 109
+    },
+    {
+      "epoch": 1.081247120258025,
+      "grad_norm": 0.8983514904975891,
+      "learning_rate": 0.000155,
+      "loss": 2.0613,
+      "step": 110
+    },
+    {
+      "epoch": 1.0910766395330977,
+      "grad_norm": 1.0163862705230713,
+      "learning_rate": 0.00015416457968035443,
+      "loss": 2.0615,
+      "step": 111
+    },
+    {
+      "epoch": 1.1009061588081708,
+      "grad_norm": 1.1525602340698242,
+      "learning_rate": 0.0001533241165222805,
+      "loss": 2.0906,
+      "step": 112
+    },
+    {
+      "epoch": 1.1107356780832438,
+      "grad_norm": 1.3764214515686035,
+      "learning_rate": 0.00015247870649227308,
+      "loss": 2.1388,
+      "step": 113
+    },
+    {
+      "epoch": 1.1205651973583166,
+      "grad_norm": 1.391831398010254,
+      "learning_rate": 0.0001516284461216752,
+      "loss": 1.7508,
+      "step": 114
+    },
+    {
+      "epoch": 1.1303947166333896,
+      "grad_norm": 1.578629970550537,
+      "learning_rate": 0.00015077343249565554,
+      "loss": 2.4968,
+      "step": 115
+    },
+    {
+      "epoch": 1.1402242359084627,
+      "grad_norm": 1.0895462036132812,
+      "learning_rate": 0.0001499137632421232,
+      "loss": 2.0435,
+      "step": 116
+    },
+    {
+      "epoch": 1.1500537551835355,
+      "grad_norm": 1.0212132930755615,
+      "learning_rate": 0.00014904953652058022,
+      "loss": 2.0891,
+      "step": 117
+    },
+    {
+      "epoch": 1.1598832744586085,
+      "grad_norm": 0.9461895227432251,
+      "learning_rate": 0.00014818085101091336,
+      "loss": 2.1364,
+      "step": 118
+    },
+    {
+      "epoch": 1.1697127937336815,
+      "grad_norm": 0.8605825901031494,
+      "learning_rate": 0.0001473078059021266,
+      "loss": 2.0956,
+      "step": 119
+    },
+    {
+      "epoch": 1.1795423130087543,
+      "grad_norm": 1.0641827583312988,
+      "learning_rate": 0.00014643050088101545,
+      "loss": 1.984,
+      "step": 120
+    },
+    {
+      "epoch": 1.1893718322838274,
+      "grad_norm": 0.9965870380401611,
+      "learning_rate": 0.00014554903612078448,
+      "loss": 2.0469,
+      "step": 121
+    },
+    {
+      "epoch": 1.1992013515589004,
+      "grad_norm": 1.0630478858947754,
+      "learning_rate": 0.00014466351226960917,
+      "loss": 2.0305,
+      "step": 122
+    },
+    {
+      "epoch": 1.2090308708339732,
+      "grad_norm": 1.062567949295044,
+      "learning_rate": 0.0001437740304391437,
+      "loss": 2.024,
+      "step": 123
+    },
+    {
+      "epoch": 1.2188603901090462,
+      "grad_norm": 1.1082484722137451,
+      "learning_rate": 0.0001428806921929756,
+      "loss": 2.0846,
+      "step": 124
+    },
+    {
+      "epoch": 1.2286899093841193,
+      "grad_norm": 1.236946702003479,
+      "learning_rate": 0.000141983599535029,
+      "loss": 1.9621,
+      "step": 125
+    },
+    {
+      "epoch": 1.2286899093841193,
+      "eval_loss": 2.4299097061157227,
+      "eval_runtime": 0.6964,
+      "eval_samples_per_second": 71.798,
+      "eval_steps_per_second": 18.667,
+      "step": 125
+    },
+    {
+      "epoch": 1.238519428659192,
+      "grad_norm": 1.6171234846115112,
+      "learning_rate": 0.00014108285489791768,
+      "loss": 2.2414,
+      "step": 126
+    },
+    {
+      "epoch": 1.248348947934265,
+      "grad_norm": 2.209141254425049,
+      "learning_rate": 0.0001401785611312488,
+      "loss": 2.4781,
+      "step": 127
+    },
+    {
+      "epoch": 1.2581784672093381,
+      "grad_norm": 1.0709174871444702,
+      "learning_rate": 0.00013927082148987925,
+      "loss": 1.9901,
+      "step": 128
+    },
+    {
+      "epoch": 1.268007986484411,
+      "grad_norm": 1.1437026262283325,
+      "learning_rate": 0.0001383597396221259,
+      "loss": 1.9849,
+      "step": 129
+    },
+    {
+      "epoch": 1.277837505759484,
+      "grad_norm": 1.181343674659729,
+      "learning_rate": 0.00013744541955793045,
+      "loss": 2.0997,
+      "step": 130
+    },
+    {
+      "epoch": 1.287667025034557,
+      "grad_norm": 1.113682508468628,
+      "learning_rate": 0.0001365279656969814,
+      "loss": 2.0418,
+      "step": 131
+    },
+    {
+      "epoch": 1.2974965443096298,
+      "grad_norm": 1.067321538925171,
+      "learning_rate": 0.0001356074827967929,
+      "loss": 2.0363,
+      "step": 132
+    },
+    {
+      "epoch": 1.3073260635847028,
+      "grad_norm": 0.9680085182189941,
+      "learning_rate": 0.00013468407596074376,
+      "loss": 2.0136,
+      "step": 133
+    },
+    {
+      "epoch": 1.3171555828597756,
+      "grad_norm": 1.076326608657837,
+      "learning_rate": 0.0001337578506260759,
+      "loss": 2.03,
+      "step": 134
+    },
+    {
+      "epoch": 1.3269851021348487,
+      "grad_norm": 1.0561034679412842,
+      "learning_rate": 0.00013282891255185565,
+      "loss": 1.9895,
+      "step": 135
+    },
+    {
+      "epoch": 1.3368146214099217,
+      "grad_norm": 1.1942148208618164,
+      "learning_rate": 0.0001318973678068978,
+      "loss": 2.0359,
+      "step": 136
+    },
+    {
+      "epoch": 1.3466441406849947,
+      "grad_norm": 1.1791845560073853,
+      "learning_rate": 0.00013096332275765407,
+      "loss": 2.0042,
+      "step": 137
+    },
+    {
+      "epoch": 1.3564736599600675,
+      "grad_norm": 1.4035441875457764,
+      "learning_rate": 0.00013002688405606828,
+      "loss": 2.1086,
+      "step": 138
+    },
+    {
+      "epoch": 1.3663031792351406,
+      "grad_norm": 1.4087142944335938,
+      "learning_rate": 0.00012908815862739835,
+      "loss": 1.7052,
+      "step": 139
+    },
+    {
+      "epoch": 1.3761326985102134,
+      "grad_norm": 1.3538085222244263,
+      "learning_rate": 0.00012814725365800698,
+      "loss": 2.5688,
+      "step": 140
+    },
+    {
+      "epoch": 1.3859622177852864,
+      "grad_norm": 0.9382008910179138,
+      "learning_rate": 0.00012720427658312352,
+      "loss": 2.0208,
+      "step": 141
+    },
+    {
+      "epoch": 1.3957917370603594,
+      "grad_norm": 0.8642036318778992,
+      "learning_rate": 0.0001262593350745759,
+      "loss": 2.0409,
+      "step": 142
+    },
+    {
+      "epoch": 1.4056212563354324,
+      "grad_norm": 0.9334009289741516,
+      "learning_rate": 0.00012531253702849696,
+      "loss": 2.028,
+      "step": 143
+    },
+    {
+      "epoch": 1.4154507756105053,
+      "grad_norm": 0.9900059700012207,
+      "learning_rate": 0.00012436399055300415,
+      "loss": 2.0542,
+      "step": 144
+    },
+    {
+      "epoch": 1.4252802948855783,
+      "grad_norm": 1.1152311563491821,
+      "learning_rate": 0.0001234138039558557,
+      "loss": 2.0503,
+      "step": 145
+    },
+    {
+      "epoch": 1.435109814160651,
+      "grad_norm": 1.132704496383667,
+      "learning_rate": 0.00012246208573208367,
+      "loss": 2.019,
+      "step": 146
+    },
+    {
+      "epoch": 1.4449393334357241,
+      "grad_norm": 1.0074613094329834,
+      "learning_rate": 0.00012150894455160555,
+      "loss": 1.9423,
+      "step": 147
+    },
+    {
+      "epoch": 1.4547688527107971,
+      "grad_norm": 1.2089931964874268,
+      "learning_rate": 0.00012055448924681618,
+      "loss": 2.0784,
+      "step": 148
+    },
+    {
+      "epoch": 1.4645983719858702,
+      "grad_norm": 1.1703325510025024,
+      "learning_rate": 0.00011959882880016083,
+      "loss": 1.9828,
+      "step": 149
+    },
+    {
+      "epoch": 1.474427891260943,
+      "grad_norm": 1.3632087707519531,
+      "learning_rate": 0.00011864207233169136,
+      "loss": 2.1095,
+      "step": 150
+    },
+    {
+      "epoch": 1.474427891260943,
+      "eval_loss": 2.4083755016326904,
+      "eval_runtime": 0.6963,
+      "eval_samples_per_second": 71.812,
+      "eval_steps_per_second": 18.671,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.444243315621888e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null