Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8d43a403d61f424a33f0f4b66007ece0f2148cdaa498335423928450f025a62
 size 159967880

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ccc85b6fbb7c856a3850b77b05669feec1027e37fd094c1945d00a76c759718
 size 159967880

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1dfc0fab5649df72a9427d082048deba36a66f41eb882b9d20631c5ef5d657e9
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:23443dd6f9908d028c0bfad8dd61e2e81a180370b0992a3feb722e9b00ec036b
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ea191539d83e7666944fccb7f33460d4ab39d45a28ffe4967ca9c83fa0149b7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0433564a4df99854aec9a017c1fcad300ed1f14852fd31500bd301a930c80ccd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e70710c409284f74d525f8db5cfaccc22a8afd29416f19c595da9242ec92d936
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9697064161300659,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.7722007722007722,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 9.347,
       "eval_steps_per_second": 1.309,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4024984929448755e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8916868567466736,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 1.1583011583011582,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.347,
       "eval_steps_per_second": 1.309,
       "step": 100
+    },
+    {
+      "epoch": 0.7799227799227799,
+      "grad_norm": 1.0814489126205444,
+      "learning_rate": 0.0001599135876488549,
+      "loss": 3.5405,
+      "step": 101
+    },
+    {
+      "epoch": 0.7876447876447876,
+      "grad_norm": 0.9852569699287415,
+      "learning_rate": 0.00015743756320098332,
+      "loss": 3.675,
+      "step": 102
+    },
+    {
+      "epoch": 0.7953667953667953,
+      "grad_norm": 0.8714922070503235,
+      "learning_rate": 0.0001549595053975962,
+      "loss": 3.4446,
+      "step": 103
+    },
+    {
+      "epoch": 0.803088803088803,
+      "grad_norm": 0.8799896836280823,
+      "learning_rate": 0.00015248009171495378,
+      "loss": 3.6148,
+      "step": 104
+    },
+    {
+      "epoch": 0.8108108108108109,
+      "grad_norm": 1.293359398841858,
+      "learning_rate": 0.00015,
+      "loss": 3.3241,
+      "step": 105
+    },
+    {
+      "epoch": 0.8185328185328186,
+      "grad_norm": 0.9777370691299438,
+      "learning_rate": 0.00014751990828504622,
+      "loss": 3.6845,
+      "step": 106
+    },
+    {
+      "epoch": 0.8262548262548263,
+      "grad_norm": 0.9750072956085205,
+      "learning_rate": 0.00014504049460240375,
+      "loss": 3.4494,
+      "step": 107
+    },
+    {
+      "epoch": 0.833976833976834,
+      "grad_norm": 1.0229166746139526,
+      "learning_rate": 0.00014256243679901663,
+      "loss": 3.2735,
+      "step": 108
+    },
+    {
+      "epoch": 0.8416988416988417,
+      "grad_norm": 1.066885232925415,
+      "learning_rate": 0.00014008641235114508,
+      "loss": 3.4985,
+      "step": 109
+    },
+    {
+      "epoch": 0.8494208494208494,
+      "grad_norm": 1.0786669254302979,
+      "learning_rate": 0.00013761309817915014,
+      "loss": 3.3593,
+      "step": 110
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 1.026157259941101,
+      "learning_rate": 0.00013514317046243058,
+      "loss": 3.3279,
+      "step": 111
+    },
+    {
+      "epoch": 0.8648648648648649,
+      "grad_norm": 1.2047860622406006,
+      "learning_rate": 0.00013267730445456208,
+      "loss": 3.2932,
+      "step": 112
+    },
+    {
+      "epoch": 0.8725868725868726,
+      "grad_norm": 1.2109214067459106,
+      "learning_rate": 0.00013021617429868963,
+      "loss": 3.5373,
+      "step": 113
+    },
+    {
+      "epoch": 0.8803088803088803,
+      "grad_norm": 1.4360451698303223,
+      "learning_rate": 0.00012776045284322368,
+      "loss": 4.342,
+      "step": 114
+    },
+    {
+      "epoch": 0.888030888030888,
+      "grad_norm": 1.5244028568267822,
+      "learning_rate": 0.00012531081145788987,
+      "loss": 4.2701,
+      "step": 115
+    },
+    {
+      "epoch": 0.8957528957528957,
+      "grad_norm": 1.4067096710205078,
+      "learning_rate": 0.00012286791985018355,
+      "loss": 4.2046,
+      "step": 116
+    },
+    {
+      "epoch": 0.9034749034749034,
+      "grad_norm": 1.6591242551803589,
+      "learning_rate": 0.00012043244588227796,
+      "loss": 4.6911,
+      "step": 117
+    },
+    {
+      "epoch": 0.9111969111969112,
+      "grad_norm": 1.7317063808441162,
+      "learning_rate": 0.00011800505538843798,
+      "loss": 5.2398,
+      "step": 118
+    },
+    {
+      "epoch": 0.918918918918919,
+      "grad_norm": 1.7341680526733398,
+      "learning_rate": 0.00011558641199298727,
+      "loss": 4.8259,
+      "step": 119
+    },
+    {
+      "epoch": 0.9266409266409267,
+      "grad_norm": 1.5798319578170776,
+      "learning_rate": 0.00011317717692888012,
+      "loss": 4.5209,
+      "step": 120
+    },
+    {
+      "epoch": 0.9343629343629344,
+      "grad_norm": 1.6763194799423218,
+      "learning_rate": 0.00011077800885692702,
+      "loss": 4.6994,
+      "step": 121
+    },
+    {
+      "epoch": 0.9420849420849421,
+      "grad_norm": 1.6097149848937988,
+      "learning_rate": 0.00010838956368572334,
+      "loss": 5.0794,
+      "step": 122
+    },
+    {
+      "epoch": 0.9498069498069498,
+      "grad_norm": 2.604187250137329,
+      "learning_rate": 0.0001060124943923303,
+      "loss": 4.6673,
+      "step": 123
+    },
+    {
+      "epoch": 0.9575289575289575,
+      "grad_norm": 1.969926118850708,
+      "learning_rate": 0.0001036474508437579,
+      "loss": 4.7072,
+      "step": 124
+    },
+    {
+      "epoch": 0.9652509652509652,
+      "grad_norm": 1.6438111066818237,
+      "learning_rate": 0.00010129507961929748,
+      "loss": 5.2833,
+      "step": 125
+    },
+    {
+      "epoch": 0.9652509652509652,
+      "eval_loss": 0.9461151361465454,
+      "eval_runtime": 5.3437,
+      "eval_samples_per_second": 9.357,
+      "eval_steps_per_second": 1.31,
+      "step": 125
+    },
+    {
+      "epoch": 0.972972972972973,
+      "grad_norm": 1.9076019525527954,
+      "learning_rate": 9.895602383375353e-05,
+      "loss": 5.2664,
+      "step": 126
+    },
+    {
+      "epoch": 0.9806949806949807,
+      "grad_norm": 1.8879812955856323,
+      "learning_rate": 9.663092296162251e-05,
+      "loss": 4.3967,
+      "step": 127
+    },
+    {
+      "epoch": 0.9884169884169884,
+      "grad_norm": 2.473862886428833,
+      "learning_rate": 9.432041266226686e-05,
+      "loss": 4.1485,
+      "step": 128
+    },
+    {
+      "epoch": 0.9961389961389961,
+      "grad_norm": 1.1409136056900024,
+      "learning_rate": 9.202512460613219e-05,
+      "loss": 3.8003,
+      "step": 129
+    },
+    {
+      "epoch": 1.0038610038610039,
+      "grad_norm": 1.3350063562393188,
+      "learning_rate": 8.97456863020546e-05,
+      "loss": 4.0067,
+      "step": 130
+    },
+    {
+      "epoch": 1.0115830115830116,
+      "grad_norm": 0.9195145964622498,
+      "learning_rate": 8.748272092570646e-05,
+      "loss": 3.2715,
+      "step": 131
+    },
+    {
+      "epoch": 1.0193050193050193,
+      "grad_norm": 0.9917705655097961,
+      "learning_rate": 8.523684714922608e-05,
+      "loss": 3.3658,
+      "step": 132
+    },
+    {
+      "epoch": 1.027027027027027,
+      "grad_norm": 0.9408825635910034,
+      "learning_rate": 8.300867897207903e-05,
+      "loss": 3.4766,
+      "step": 133
+    },
+    {
+      "epoch": 1.0347490347490347,
+      "grad_norm": 0.9783669710159302,
+      "learning_rate": 8.079882555319684e-05,
+      "loss": 3.313,
+      "step": 134
+    },
+    {
+      "epoch": 1.0424710424710424,
+      "grad_norm": 1.037092685699463,
+      "learning_rate": 7.860789104443896e-05,
+      "loss": 3.1864,
+      "step": 135
+    },
+    {
+      "epoch": 1.05019305019305,
+      "grad_norm": 1.0254372358322144,
+      "learning_rate": 7.643647442542382e-05,
+      "loss": 3.1248,
+      "step": 136
+    },
+    {
+      "epoch": 1.057915057915058,
+      "grad_norm": 0.9661920070648193,
+      "learning_rate": 7.428516933977347e-05,
+      "loss": 3.2942,
+      "step": 137
+    },
+    {
+      "epoch": 1.0656370656370657,
+      "grad_norm": 0.9666591286659241,
+      "learning_rate": 7.215456393281776e-05,
+      "loss": 3.0228,
+      "step": 138
+    },
+    {
+      "epoch": 1.0733590733590734,
+      "grad_norm": 0.9560402631759644,
+      "learning_rate": 7.004524069080096e-05,
+      "loss": 3.1348,
+      "step": 139
+    },
+    {
+      "epoch": 1.0810810810810811,
+      "grad_norm": 0.9567746520042419,
+      "learning_rate": 6.795777628163599e-05,
+      "loss": 2.9588,
+      "step": 140
+    },
+    {
+      "epoch": 1.0888030888030888,
+      "grad_norm": 1.0468031167984009,
+      "learning_rate": 6.58927413972491e-05,
+      "loss": 3.0136,
+      "step": 141
+    },
+    {
+      "epoch": 1.0965250965250966,
+      "grad_norm": 1.105804443359375,
+      "learning_rate": 6.385070059755846e-05,
+      "loss": 2.9526,
+      "step": 142
+    },
+    {
+      "epoch": 1.1042471042471043,
+      "grad_norm": 1.1531401872634888,
+      "learning_rate": 6.183221215612904e-05,
+      "loss": 2.9225,
+      "step": 143
+    },
+    {
+      "epoch": 1.111969111969112,
+      "grad_norm": 1.205812692642212,
+      "learning_rate": 5.983782790754623e-05,
+      "loss": 3.1323,
+      "step": 144
+    },
+    {
+      "epoch": 1.1196911196911197,
+      "grad_norm": 1.1785130500793457,
+      "learning_rate": 5.786809309654982e-05,
+      "loss": 2.7042,
+      "step": 145
+    },
+    {
+      "epoch": 1.1274131274131274,
+      "grad_norm": 1.4720457792282104,
+      "learning_rate": 5.592354622896944e-05,
+      "loss": 3.406,
+      "step": 146
+    },
+    {
+      "epoch": 1.135135135135135,
+      "grad_norm": 1.4923970699310303,
+      "learning_rate": 5.40047189245025e-05,
+      "loss": 3.3196,
+      "step": 147
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 1.756646752357483,
+      "learning_rate": 5.211213577137469e-05,
+      "loss": 3.5537,
+      "step": 148
+    },
+    {
+      "epoch": 1.1505791505791505,
+      "grad_norm": 1.7553679943084717,
+      "learning_rate": 5.024631418292274e-05,
+      "loss": 3.627,
+      "step": 149
+    },
+    {
+      "epoch": 1.1583011583011582,
+      "grad_norm": 1.7934798002243042,
+      "learning_rate": 4.840776425613886e-05,
+      "loss": 3.9637,
+      "step": 150
+    },
+    {
+      "epoch": 1.1583011583011582,
+      "eval_loss": 0.8916868567466736,
+      "eval_runtime": 5.3655,
+      "eval_samples_per_second": 9.319,
+      "eval_steps_per_second": 1.305,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.1037477394173133e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null