Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a3ffcbaa20b7adbe3fb13d9c5ea00dbdbae59c512774db3d51955792d1ebe7a
 size 78480072

 version https://git-lfs.github.com/spec/v1
+oid sha256:0586752f3979653235538cb76d586e933e30062b1a35ebf40ce0480b2ae556b4
 size 78480072

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63651ce56714645983f45e2492848593058dab03a9c536764e4e5cf34a8e37e1
 size 157104826

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b976f4f7ca39bcc598e3150657e41d22566bfff384b274ef60bea64b58e4ba2
 size 157104826

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2080f537fe1f5b09c5545e0deb689d18a7c273db36d4eb7e485a02ec70332d29
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b3c850cd945b590d66f8306a5dc2bcd4719c74f40e07cce9a03515237e59666
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14c54e2808505d707e404604e9ed2ad38d20d45b7d9957640670391eec62b327
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7929042630bdf72e45e8596f43c5141f02517487a96e15f8463617c2259ba7ce
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae9a47a29badd350d6d01c3321234fd35296302a9338745a084148705487be3a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:afc2344264333f58c1f67871a8080082f1e7869b84cb88c38366c734877c212e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fcc8134a255b5c925280b9faeb8ef8acd9edf7ac109ec4b34e9b03a05777d45
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef2c5cf3ce45f3fb7bf3784c5e4fb05a993b91767ce8e1730eb9c27ddb38b6c6
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ad2841b888ce0ae948634757c3fcacf0119c249e0fec8f3ca61ea266369ef92
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5d2a6c6aafc669cea03b9634666f204de949a3d45ce2f48a07e7e3eaf18c715
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.1013789251446724,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.19436345966958213,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 65.71,
       "eval_steps_per_second": 2.628,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1654663750077645e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08561168611049652,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.38872691933916426,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 65.71,
       "eval_steps_per_second": 2.628,
       "step": 50
+    },
+    {
+      "epoch": 0.19825072886297376,
+      "grad_norm": 0.13819019496440887,
+      "learning_rate": 0.0002668315918143169,
+      "loss": 0.0541,
+      "step": 51
+    },
+    {
+      "epoch": 0.2021379980563654,
+      "grad_norm": 0.1316405087709427,
+      "learning_rate": 0.00026526016662852886,
+      "loss": 0.0405,
+      "step": 52
+    },
+    {
+      "epoch": 0.20602526724975703,
+      "grad_norm": 0.06152060255408287,
+      "learning_rate": 0.00026365723046405023,
+      "loss": 0.0351,
+      "step": 53
+    },
+    {
+      "epoch": 0.2099125364431487,
+      "grad_norm": 0.053634870797395706,
+      "learning_rate": 0.0002620232215476231,
+      "loss": 0.0469,
+      "step": 54
+    },
+    {
+      "epoch": 0.21379980563654033,
+      "grad_norm": 0.06233103573322296,
+      "learning_rate": 0.0002603585866009697,
+      "loss": 0.0538,
+      "step": 55
+    },
+    {
+      "epoch": 0.21768707482993196,
+      "grad_norm": 0.07677210867404938,
+      "learning_rate": 0.00025866378071866334,
+      "loss": 0.0547,
+      "step": 56
+    },
+    {
+      "epoch": 0.22157434402332363,
+      "grad_norm": 0.09678474068641663,
+      "learning_rate": 0.00025693926724370956,
+      "loss": 0.0678,
+      "step": 57
+    },
+    {
+      "epoch": 0.22546161321671526,
+      "grad_norm": 0.12184121459722519,
+      "learning_rate": 0.00025518551764087326,
+      "loss": 0.1066,
+      "step": 58
+    },
+    {
+      "epoch": 0.2293488824101069,
+      "grad_norm": 0.1470523178577423,
+      "learning_rate": 0.00025340301136778483,
+      "loss": 0.1323,
+      "step": 59
+    },
+    {
+      "epoch": 0.23323615160349853,
+      "grad_norm": 0.18343396484851837,
+      "learning_rate": 0.00025159223574386114,
+      "loss": 0.1909,
+      "step": 60
+    },
+    {
+      "epoch": 0.2371234207968902,
+      "grad_norm": 0.18938356637954712,
+      "learning_rate": 0.0002497536858170772,
+      "loss": 0.2124,
+      "step": 61
+    },
+    {
+      "epoch": 0.24101068999028183,
+      "grad_norm": 0.34483832120895386,
+      "learning_rate": 0.00024788786422862526,
+      "loss": 0.36,
+      "step": 62
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.07590112835168839,
+      "learning_rate": 0.00024599528107549745,
+      "loss": 0.0741,
+      "step": 63
+    },
+    {
+      "epoch": 0.2487852283770651,
+      "grad_norm": 0.0571330301463604,
+      "learning_rate": 0.00024407645377103054,
+      "loss": 0.05,
+      "step": 64
+    },
+    {
+      "epoch": 0.25267249757045673,
+      "grad_norm": 0.045787546783685684,
+      "learning_rate": 0.00024213190690345018,
+      "loss": 0.0402,
+      "step": 65
+    },
+    {
+      "epoch": 0.2565597667638484,
+      "grad_norm": 0.05736127123236656,
+      "learning_rate": 0.00024016217209245374,
+      "loss": 0.0411,
+      "step": 66
+    },
+    {
+      "epoch": 0.26044703595724006,
+      "grad_norm": 0.07004929333925247,
+      "learning_rate": 0.00023816778784387094,
+      "loss": 0.0401,
+      "step": 67
+    },
+    {
+      "epoch": 0.26433430515063167,
+      "grad_norm": 0.07149740308523178,
+      "learning_rate": 0.0002361492994024415,
+      "loss": 0.0527,
+      "step": 68
+    },
+    {
+      "epoch": 0.26822157434402333,
+      "grad_norm": 0.08593209832906723,
+      "learning_rate": 0.0002341072586027509,
+      "loss": 0.0663,
+      "step": 69
+    },
+    {
+      "epoch": 0.272108843537415,
+      "grad_norm": 0.09691403806209564,
+      "learning_rate": 0.00023204222371836405,
+      "loss": 0.091,
+      "step": 70
+    },
+    {
+      "epoch": 0.2759961127308066,
+      "grad_norm": 0.10673736780881882,
+      "learning_rate": 0.00022995475930919905,
+      "loss": 0.1131,
+      "step": 71
+    },
+    {
+      "epoch": 0.27988338192419826,
+      "grad_norm": 0.12909558415412903,
+      "learning_rate": 0.00022784543606718227,
+      "loss": 0.1338,
+      "step": 72
+    },
+    {
+      "epoch": 0.28377065111758987,
+      "grad_norm": 0.18475858867168427,
+      "learning_rate": 0.00022571483066022657,
+      "loss": 0.1931,
+      "step": 73
+    },
+    {
+      "epoch": 0.28765792031098153,
+      "grad_norm": 0.24942803382873535,
+      "learning_rate": 0.0002235635255745762,
+      "loss": 0.2827,
+      "step": 74
+    },
+    {
+      "epoch": 0.2915451895043732,
+      "grad_norm": 0.34233248233795166,
+      "learning_rate": 0.00022139210895556104,
+      "loss": 0.3967,
+      "step": 75
+    },
+    {
+      "epoch": 0.2915451895043732,
+      "eval_loss": 0.09369731694459915,
+      "eval_runtime": 0.7613,
+      "eval_samples_per_second": 65.673,
+      "eval_steps_per_second": 2.627,
+      "step": 75
+    },
+    {
+      "epoch": 0.2954324586977648,
+      "grad_norm": 0.0579577200114727,
+      "learning_rate": 0.00021920117444680317,
+      "loss": 0.0548,
+      "step": 76
+    },
+    {
+      "epoch": 0.29931972789115646,
+      "grad_norm": 0.05240903049707413,
+      "learning_rate": 0.00021699132102792097,
+      "loss": 0.0393,
+      "step": 77
+    },
+    {
+      "epoch": 0.3032069970845481,
+      "grad_norm": 0.061587151139974594,
+      "learning_rate": 0.0002147631528507739,
+      "loss": 0.0334,
+      "step": 78
+    },
+    {
+      "epoch": 0.30709426627793973,
+      "grad_norm": 0.05840449780225754,
+      "learning_rate": 0.00021251727907429355,
+      "loss": 0.039,
+      "step": 79
+    },
+    {
+      "epoch": 0.3109815354713314,
+      "grad_norm": 0.060217294842004776,
+      "learning_rate": 0.0002102543136979454,
+      "loss": 0.0456,
+      "step": 80
+    },
+    {
+      "epoch": 0.31486880466472306,
+      "grad_norm": 0.08354919403791428,
+      "learning_rate": 0.0002079748753938678,
+      "loss": 0.067,
+      "step": 81
+    },
+    {
+      "epoch": 0.31875607385811466,
+      "grad_norm": 0.08509140461683273,
+      "learning_rate": 0.0002056795873377331,
+      "loss": 0.0761,
+      "step": 82
+    },
+    {
+      "epoch": 0.3226433430515063,
+      "grad_norm": 0.09227221459150314,
+      "learning_rate": 0.00020336907703837748,
+      "loss": 0.0854,
+      "step": 83
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.11894426494836807,
+      "learning_rate": 0.00020104397616624645,
+      "loss": 0.1199,
+      "step": 84
+    },
+    {
+      "epoch": 0.3304178814382896,
+      "grad_norm": 0.12877412140369415,
+      "learning_rate": 0.00019870492038070252,
+      "loss": 0.1401,
+      "step": 85
+    },
+    {
+      "epoch": 0.33430515063168126,
+      "grad_norm": 0.2026694416999817,
+      "learning_rate": 0.0001963525491562421,
+      "loss": 0.2156,
+      "step": 86
+    },
+    {
+      "epoch": 0.33819241982507287,
+      "grad_norm": 0.25777146220207214,
+      "learning_rate": 0.0001939875056076697,
+      "loss": 0.2802,
+      "step": 87
+    },
+    {
+      "epoch": 0.34207968901846453,
+      "grad_norm": 0.07381570339202881,
+      "learning_rate": 0.00019161043631427666,
+      "loss": 0.0682,
+      "step": 88
+    },
+    {
+      "epoch": 0.3459669582118562,
+      "grad_norm": 0.047046344727277756,
+      "learning_rate": 0.00018922199114307294,
+      "loss": 0.0355,
+      "step": 89
+    },
+    {
+      "epoch": 0.3498542274052478,
+      "grad_norm": 0.07161912322044373,
+      "learning_rate": 0.00018682282307111987,
+      "loss": 0.0368,
+      "step": 90
+    },
+    {
+      "epoch": 0.35374149659863946,
+      "grad_norm": 0.04765067622065544,
+      "learning_rate": 0.00018441358800701273,
+      "loss": 0.0342,
+      "step": 91
+    },
+    {
+      "epoch": 0.3576287657920311,
+      "grad_norm": 0.05586829036474228,
+      "learning_rate": 0.00018199494461156203,
+      "loss": 0.0383,
+      "step": 92
+    },
+    {
+      "epoch": 0.36151603498542273,
+      "grad_norm": 0.05112822353839874,
+      "learning_rate": 0.000179567554117722,
+      "loss": 0.0457,
+      "step": 93
+    },
+    {
+      "epoch": 0.3654033041788144,
+      "grad_norm": 0.06726202368736267,
+      "learning_rate": 0.00017713208014981648,
+      "loss": 0.0575,
+      "step": 94
+    },
+    {
+      "epoch": 0.369290573372206,
+      "grad_norm": 0.11716607213020325,
+      "learning_rate": 0.00017468918854211007,
+      "loss": 0.0752,
+      "step": 95
+    },
+    {
+      "epoch": 0.37317784256559766,
+      "grad_norm": 0.12760676443576813,
+      "learning_rate": 0.00017223954715677627,
+      "loss": 0.1276,
+      "step": 96
+    },
+    {
+      "epoch": 0.3770651117589893,
+      "grad_norm": 0.14696328341960907,
+      "learning_rate": 0.00016978382570131034,
+      "loss": 0.14,
+      "step": 97
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.16512975096702576,
+      "learning_rate": 0.00016732269554543794,
+      "loss": 0.2012,
+      "step": 98
+    },
+    {
+      "epoch": 0.3848396501457726,
+      "grad_norm": 0.22031673789024353,
+      "learning_rate": 0.00016485682953756942,
+      "loss": 0.2332,
+      "step": 99
+    },
+    {
+      "epoch": 0.38872691933916426,
+      "grad_norm": 0.332925021648407,
+      "learning_rate": 0.00016238690182084986,
+      "loss": 0.394,
+      "step": 100
+    },
+    {
+      "epoch": 0.38872691933916426,
+      "eval_loss": 0.08561168611049652,
+      "eval_runtime": 0.7609,
+      "eval_samples_per_second": 65.715,
+      "eval_steps_per_second": 2.629,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.328842228371292e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null