Training in progress, step 152, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +543 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdbb032b2c38c6d87a9d358dcc3180bf13f11278018e8feee884f36f1c824fa7
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e5789679118fe6249de3ab6bee816cb3c4cf3ab01068ebb0e9d5de334ad6944
 size 501168482

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18ef8632fbc8c2fd71394fd417dea822342f516e1d9a1808f7a77f591d4cb3eb
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:a357998c9e06de8784c658751b0b6822cd40078cbe2fdb27b35497f312e7f07b
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a465e7b600b2eb4b23d7eca04cb3ea9fa0684b6bc8cd24aba333e83e13a8293
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc2ba61932409c71c4b4e2c80294a20bd07f9a04c03c96589d342f141ba26914
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adae00deb0c1057a8fffd51118c3e03f2b7e37c29fe1e99873db394f6ac98449
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a18cea3621f9dc2789cea415c39b96c4e45945922514433b7b11735bf5d8256
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.023112597886413747,
   "eval_steps": 76,
-  "global_step": 76,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -555,6 +555,546 @@
       "eval_samples_per_second": 3.94,
       "eval_steps_per_second": 0.985,
       "step": 76
     }
   ],
   "logging_steps": 1,
@@ -574,7 +1114,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.175457109466153e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04622519577282749,
   "eval_steps": 76,
+  "global_step": 152,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.94,
       "eval_steps_per_second": 0.985,
       "step": 76
+    },
+    {
+      "epoch": 0.023416711016498136,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001944321908543708,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.02372082414658253,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019401636137990816,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.02402493727666692,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019358603562568416,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.02432905040675131,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001931412799431554,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.024633163536835704,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001926821629087133,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.024937276666920093,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019220875531311045,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.025241389797004486,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019172113015054532,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.025545502927088876,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019121936260740752,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.02584961605717327,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019070353005068484,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.02615372918725766,
+      "grad_norm": NaN,
+      "learning_rate": 0.00019017371201603407,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.02645784231734205,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018962999019551754,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.026761955447426444,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018907244842500704,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.027066068577510833,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018850117267125738,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.027370181707595226,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018791625101865117,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.027674294837679615,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001873177736556172,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.027978407967764008,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018670583286072443,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.0282825210978484,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001860805229884536,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.02858663422793279,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018544194045464886,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.028890747358017183,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001847901837216515,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.029194860488101573,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018412535328311814,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.029498973618185965,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001834475516485257,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.029803086748270355,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018275688332736577,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.030107199878354748,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018205345481302998,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.03041131300843914,
+      "grad_norm": NaN,
+      "learning_rate": 0.00018133737456639044,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.03071542613852353,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001806087529990758,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.031019539268607923,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001798677024564473,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.031323652398692316,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017911433720027624,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.031627765528776705,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017834877339112612,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.031931878658861094,
+      "grad_norm": NaN,
+      "learning_rate": 0.000177571129070442,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.03223599178894549,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017678152414234968,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.03254010491902988,
+      "grad_norm": NaN,
+      "learning_rate": 0.000175980080355168,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.03284421804911427,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017516692128263648,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.03314833117919866,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017434217230486164,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.033452444309283055,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017350596058898483,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.033756557439367445,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001726584150695744,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.034060670569451834,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017179966642874543,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.03436478369953623,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001709298470760101,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.03466889682962062,
+      "grad_norm": NaN,
+      "learning_rate": 0.00017004909112786144,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.03497300995970501,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016915753438709417,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.0352771230897894,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016825531432186543,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.035581236219873795,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016734257004449862,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.035885349349958184,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016641944229003395,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.036189462480042574,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016548607339452853,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.03649357561012697,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016454260727310978,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.03679768874021136,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016358918939778536,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.03710180187029575,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016262596677501297,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.03740591500038014,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001616530879230335,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.037710028130464535,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016067070284897137,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.038014141260548924,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015967896302570485,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.03831825439063331,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001586780213685108,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.03862236752071771,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015766803221148673,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.0389264806508021,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001566491512837543,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.03923059378088649,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015562153568544752,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.03953470691097088,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015458534386348966,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.039838820041055274,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001535407355871626,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.040142933171139664,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015248787192347196,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.04044704630122405,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015142691521231267,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.04075115943130845,
+      "grad_norm": NaN,
+      "learning_rate": 0.00015035802904143762,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.04105527256139284,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014928137822123452,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.04135938569147723,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001481971287593138,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.04166349882156162,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014710544783491208,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.041967611951646014,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014600650377311522,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.0422717250817304,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014490046601890405,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.04257583821181479,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014378750511102826,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.04287995134189919,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014266779265571087,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.04318406447198358,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014154150130018866,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.04348817760206797,
+      "grad_norm": NaN,
+      "learning_rate": 0.00014040880470609187,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.043792290732152364,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013926987752266735,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.044096403862236754,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013812489535984981,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.04440051699232114,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013697403476118454,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.04470463012240553,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001358174731766064,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.04500874325248993,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013465538893507907,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.04531285638257432,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013348796121709862,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.04561696951265871,
+      "grad_norm": NaN,
+      "learning_rate": 0.00013231537002706594,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.045921082642743104,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001311377961655319,
+      "loss": 0.0,
+      "step": 151
+    },
+    {
+      "epoch": 0.04622519577282749,
+      "grad_norm": NaN,
+      "learning_rate": 0.00012995542120132017,
+      "loss": 0.0,
+      "step": 152
+    },
+    {
+      "epoch": 0.04622519577282749,
+      "eval_loss": NaN,
+      "eval_runtime": 1407.6583,
+      "eval_samples_per_second": 3.934,
+      "eval_steps_per_second": 0.984,
+      "step": 152
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.0424076796386345e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null