Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3b7af4d57506f325c1d22f3c8a40e77d790324c23ed41c8ed9682ce8f8e167c
 size 50358592

 version https://git-lfs.github.com/spec/v1
+oid sha256:a499d923fc8b0362c81987e3172fbcd093b0effe5bdc768e70faf0811be15f5e
 size 50358592

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7ad1c1da17d7e2a91d1e54810eac5e8be3e343789d4516ee50cf881367fd943
 size 100824826

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc86c2c3b62f1125d16831eb4312c9bd1507cc6ded424140a435b9659edc365e
 size 100824826

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd61fceb2c896617b2d1e57a02a4d9fc6e1be354a1761a795a1dc967c6f384c9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3603ae0f461c0309918a469bb88361702e8fe7031d469296ef29915e59cd15f4
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5e03c4b3bca09b3ba06778c4520d28f0580ee20f08105c5b342aef9f6fd3b5e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:95019e029f304009516750a4bbe05ba42bcbfeab090e08f3a47061c7683127e4
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df9e6a7b452ba404eb513c746d0e7064effeffd8c6ac44bd27874cc62f0cc04d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c93ea150dedd152785349606801d73a50b174319e11bd7bc4c752090cefb4196
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7c6f41a02863890f07c335f550c3f39e132adeb06392e15ddbb77d7e38897d5
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5e3858bb07bc0e1a65c01d5084480d194b61020c06fc22f6fa0708b202f0e34
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef130dbe5559202aa005996d3d525a5e65bfb573d0d5648d2112c86f14c82e15
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba08b4a1855b48cf82b864725b4104527747dc0aacfb5a9d0a509cb25e565a06
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7224195599555969,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 1.2950687146321747,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 79.667,
       "eval_steps_per_second": 3.187,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.10201547456512e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6968957781791687,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 2.5901374292643493,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 79.667,
       "eval_steps_per_second": 3.187,
       "step": 50
+    },
+    {
+      "epoch": 1.3209377526273243,
+      "grad_norm": 15.50403118133545,
+      "learning_rate": 0.0002022302453151598,
+      "loss": 22.3089,
+      "step": 51
+    },
+    {
+      "epoch": 1.3468067906224737,
+      "grad_norm": 24.226417541503906,
+      "learning_rate": 0.0001980404780794256,
+      "loss": 23.1566,
+      "step": 52
+    },
+    {
+      "epoch": 1.3726758286176233,
+      "grad_norm": 20.176647186279297,
+      "learning_rate": 0.00019380851559554636,
+      "loss": 22.929,
+      "step": 53
+    },
+    {
+      "epoch": 1.3985448666127729,
+      "grad_norm": 15.459396362304688,
+      "learning_rate": 0.00018953807491036011,
+      "loss": 22.6978,
+      "step": 54
+    },
+    {
+      "epoch": 1.4244139046079223,
+      "grad_norm": 14.14704418182373,
+      "learning_rate": 0.00018523290686714756,
+      "loss": 22.7141,
+      "step": 55
+    },
+    {
+      "epoch": 1.450282942603072,
+      "grad_norm": 7.990035533905029,
+      "learning_rate": 0.00018089679281116472,
+      "loss": 23.1633,
+      "step": 56
+    },
+    {
+      "epoch": 1.4761519805982215,
+      "grad_norm": 3.211017608642578,
+      "learning_rate": 0.00017653354126838592,
+      "loss": 22.3353,
+      "step": 57
+    },
+    {
+      "epoch": 1.502021018593371,
+      "grad_norm": 18.740083694458008,
+      "learning_rate": 0.00017214698460037218,
+      "loss": 23.5309,
+      "step": 58
+    },
+    {
+      "epoch": 1.5278900565885207,
+      "grad_norm": 16.11014175415039,
+      "learning_rate": 0.00016774097563820485,
+      "loss": 22.8019,
+      "step": 59
+    },
+    {
+      "epoch": 1.5537590945836701,
+      "grad_norm": 26.232606887817383,
+      "learning_rate": 0.00016331938429844022,
+      "loss": 23.5109,
+      "step": 60
+    },
+    {
+      "epoch": 1.5796281325788197,
+      "grad_norm": 16.256412506103516,
+      "learning_rate": 0.00015888609418405713,
+      "loss": 22.8009,
+      "step": 61
+    },
+    {
+      "epoch": 1.6054971705739693,
+      "grad_norm": 11.629958152770996,
+      "learning_rate": 0.00015444499917338395,
+      "loss": 22.3203,
+      "step": 62
+    },
+    {
+      "epoch": 1.6313662085691187,
+      "grad_norm": 11.147138595581055,
+      "learning_rate": 0.00015,
+      "loss": 22.4757,
+      "step": 63
+    },
+    {
+      "epoch": 1.6572352465642683,
+      "grad_norm": 5.99025297164917,
+      "learning_rate": 0.00014555500082661602,
+      "loss": 22.2444,
+      "step": 64
+    },
+    {
+      "epoch": 1.683104284559418,
+      "grad_norm": 11.468669891357422,
+      "learning_rate": 0.00014111390581594284,
+      "loss": 22.2462,
+      "step": 65
+    },
+    {
+      "epoch": 1.7089733225545674,
+      "grad_norm": 14.979022979736328,
+      "learning_rate": 0.00013668061570155978,
+      "loss": 21.7589,
+      "step": 66
+    },
+    {
+      "epoch": 1.7348423605497172,
+      "grad_norm": 12.94080924987793,
+      "learning_rate": 0.00013225902436179513,
+      "loss": 22.4269,
+      "step": 67
+    },
+    {
+      "epoch": 1.7607113985448666,
+      "grad_norm": 11.411182403564453,
+      "learning_rate": 0.00012785301539962782,
+      "loss": 21.7354,
+      "step": 68
+    },
+    {
+      "epoch": 1.7865804365400162,
+      "grad_norm": 27.090801239013672,
+      "learning_rate": 0.00012346645873161408,
+      "loss": 23.5318,
+      "step": 69
+    },
+    {
+      "epoch": 1.8124494745351658,
+      "grad_norm": 17.46219825744629,
+      "learning_rate": 0.00011910320718883525,
+      "loss": 22.8003,
+      "step": 70
+    },
+    {
+      "epoch": 1.8383185125303152,
+      "grad_norm": 17.276792526245117,
+      "learning_rate": 0.00011476709313285244,
+      "loss": 22.7198,
+      "step": 71
+    },
+    {
+      "epoch": 1.8641875505254648,
+      "grad_norm": 13.101729393005371,
+      "learning_rate": 0.00011046192508963989,
+      "loss": 22.2413,
+      "step": 72
+    },
+    {
+      "epoch": 1.8900565885206144,
+      "grad_norm": 10.330924987792969,
+      "learning_rate": 0.00010619148440445364,
+      "loss": 21.9412,
+      "step": 73
+    },
+    {
+      "epoch": 1.9159256265157638,
+      "grad_norm": 16.028894424438477,
+      "learning_rate": 0.00010195952192057438,
+      "loss": 22.5098,
+      "step": 74
+    },
+    {
+      "epoch": 1.9417946645109136,
+      "grad_norm": 8.1192626953125,
+      "learning_rate": 9.776975468484019e-05,
+      "loss": 22.1182,
+      "step": 75
+    },
+    {
+      "epoch": 1.9417946645109136,
+      "eval_loss": 0.7175214886665344,
+      "eval_runtime": 0.6276,
+      "eval_samples_per_second": 79.669,
+      "eval_steps_per_second": 3.187,
+      "step": 75
+    },
+    {
+      "epoch": 1.967663702506063,
+      "grad_norm": 11.423409461975098,
+      "learning_rate": 9.36258626828643e-05,
+      "loss": 22.3389,
+      "step": 76
+    },
+    {
+      "epoch": 1.9935327405012127,
+      "grad_norm": 12.934334754943848,
+      "learning_rate": 8.953148560680418e-05,
+      "loss": 22.7501,
+      "step": 77
+    },
+    {
+      "epoch": 2.021018593371059,
+      "grad_norm": 22.10219383239746,
+      "learning_rate": 8.549021965852197e-05,
+      "loss": 23.1807,
+      "step": 78
+    },
+    {
+      "epoch": 2.0468876313662085,
+      "grad_norm": 15.90378475189209,
+      "learning_rate": 8.150561439094303e-05,
+      "loss": 22.5372,
+      "step": 79
+    },
+    {
+      "epoch": 2.072756669361358,
+      "grad_norm": 10.656487464904785,
+      "learning_rate": 7.758116959038828e-05,
+      "loss": 22.1827,
+      "step": 80
+    },
+    {
+      "epoch": 2.0986257073565078,
+      "grad_norm": 22.766876220703125,
+      "learning_rate": 7.372033220261696e-05,
+      "loss": 22.6163,
+      "step": 81
+    },
+    {
+      "epoch": 2.124494745351657,
+      "grad_norm": 11.259724617004395,
+      "learning_rate": 6.992649330528145e-05,
+      "loss": 22.0147,
+      "step": 82
+    },
+    {
+      "epoch": 2.1503637833468066,
+      "grad_norm": 12.66515827178955,
+      "learning_rate": 6.620298512945214e-05,
+      "loss": 21.9512,
+      "step": 83
+    },
+    {
+      "epoch": 2.1762328213419564,
+      "grad_norm": 5.229973793029785,
+      "learning_rate": 6.255307813282921e-05,
+      "loss": 22.17,
+      "step": 84
+    },
+    {
+      "epoch": 2.202101859337106,
+      "grad_norm": 6.952908992767334,
+      "learning_rate": 5.897997812721103e-05,
+      "loss": 22.418,
+      "step": 85
+    },
+    {
+      "epoch": 2.2279708973322556,
+      "grad_norm": 9.438949584960938,
+      "learning_rate": 5.5486823462743344e-05,
+      "loss": 22.334,
+      "step": 86
+    },
+    {
+      "epoch": 2.253839935327405,
+      "grad_norm": 13.546004295349121,
+      "learning_rate": 5.2076682271421774e-05,
+      "loss": 22.3634,
+      "step": 87
+    },
+    {
+      "epoch": 2.2797089733225544,
+      "grad_norm": 14.096308708190918,
+      "learning_rate": 4.8752549772268444e-05,
+      "loss": 22.6631,
+      "step": 88
+    },
+    {
+      "epoch": 2.3055780113177042,
+      "grad_norm": 18.847871780395508,
+      "learning_rate": 4.551734564055049e-05,
+      "loss": 22.0801,
+      "step": 89
+    },
+    {
+      "epoch": 2.3314470493128536,
+      "grad_norm": 7.903066635131836,
+      "learning_rate": 4.2373911443350286e-05,
+      "loss": 22.043,
+      "step": 90
+    },
+    {
+      "epoch": 2.3573160873080035,
+      "grad_norm": 16.976978302001953,
+      "learning_rate": 3.932500814374089e-05,
+      "loss": 22.2002,
+      "step": 91
+    },
+    {
+      "epoch": 2.383185125303153,
+      "grad_norm": 11.1248140335083,
+      "learning_rate": 3.637331367575698e-05,
+      "loss": 22.1329,
+      "step": 92
+    },
+    {
+      "epoch": 2.4090541632983022,
+      "grad_norm": 5.761756896972656,
+      "learning_rate": 3.352142059229365e-05,
+      "loss": 22.0856,
+      "step": 93
+    },
+    {
+      "epoch": 2.434923201293452,
+      "grad_norm": 12.847921371459961,
+      "learning_rate": 3.077183378799699e-05,
+      "loss": 22.0646,
+      "step": 94
+    },
+    {
+      "epoch": 2.4607922392886015,
+      "grad_norm": 9.289769172668457,
+      "learning_rate": 2.81269682991478e-05,
+      "loss": 21.8848,
+      "step": 95
+    },
+    {
+      "epoch": 2.486661277283751,
+      "grad_norm": 13.644316673278809,
+      "learning_rate": 2.5589147182469732e-05,
+      "loss": 23.1436,
+      "step": 96
+    },
+    {
+      "epoch": 2.5125303152789007,
+      "grad_norm": 16.434682846069336,
+      "learning_rate": 2.316059947472607e-05,
+      "loss": 22.212,
+      "step": 97
+    },
+    {
+      "epoch": 2.53839935327405,
+      "grad_norm": 6.969300270080566,
+      "learning_rate": 2.0843458234896666e-05,
+      "loss": 22.2793,
+      "step": 98
+    },
+    {
+      "epoch": 2.5642683912691995,
+      "grad_norm": 21.42749786376953,
+      "learning_rate": 1.8639758670654486e-05,
+      "loss": 22.3692,
+      "step": 99
+    },
+    {
+      "epoch": 2.5901374292643493,
+      "grad_norm": 13.674956321716309,
+      "learning_rate": 1.6551436350787918e-05,
+      "loss": 22.2481,
+      "step": 100
+    },
+    {
+      "epoch": 2.5901374292643493,
+      "eval_loss": 0.6968957781791687,
+      "eval_runtime": 0.6272,
+      "eval_samples_per_second": 79.714,
+      "eval_steps_per_second": 3.189,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.020403094913024e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null