Upload 9 files

Browse files

Files changed (7) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +160 -49
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:852f3660024c968cc4ef52275707929fd5543378838969cbb4f8fef793d37cb5
 size 2490594117

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd5ea1944603fdc43786885c6fad297352a4cfa88903c6e5e401a61afdb1ff69
 size 2490594117

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7f0fcd11ecc6bf466188d996bb2c0323e1e2a252799c8f878a3eb91dc63a030
 size 1262168365

 version https://git-lfs.github.com/spec/v1
+oid sha256:8413826d343ca1a5a05286342dc463d0c96f14f6f5250d6663157cd0a22bfa14
 size 1262168365

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc5fd90d34449afd87dad4166da01169d0c05887d448a55d6c373fec7de3d50e
-size 14639

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4b28524c43613725eb2734e93e3c395b0e0263834fec5ee89fe1a89e4e55726
+size 14575

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:076f6ff47b30a5a4c15d66bc604090be40c546cc4745c17c3598eccee67eb0ba
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd0d7640fa100af1c436a6097e415e0c78c222c34fc3a4163201c7f7420d7659
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6fe6ee715be2fb390ed8c899f21cf138e268409631f9c7601cdd970a9d2894e
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc7a186be3ea4a6d0305e7ea5e53d52b11c001b50c8a64d1a6c67ede89211232
 size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.245931283905968,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,103 +10,214 @@
     {
       "epoch": 0.72,
       "learning_rate": 1e-05,
-      "loss": 0.0369,
       "step": 100
     },
     {
       "epoch": 1.45,
       "learning_rate": 9.99927530980506e-06,
-      "loss": 0.0305,
       "step": 200
     },
-    {
-      "epoch": 1.81,
-      "eval_loss": 0.2080060839653015,
-      "eval_runtime": 285.8113,
-      "eval_samples_per_second": 13.81,
-      "eval_steps_per_second": 1.728,
-      "eval_wer": 0.1806282722513089,
-      "step": 250
-    },
     {
       "epoch": 2.17,
       "learning_rate": 9.998550619610118e-06,
-      "loss": 0.0294,
       "step": 300
     },
     {
       "epoch": 2.9,
       "learning_rate": 9.997825929415176e-06,
-      "loss": 0.0271,
       "step": 400
     },
     {
       "epoch": 3.62,
-      "learning_rate": 9.997101239220233e-06,
-      "loss": 0.0253,
-      "step": 500
-    },
-    {
-      "epoch": 3.62,
-      "eval_loss": 0.20865508913993835,
-      "eval_runtime": 202.8306,
-      "eval_samples_per_second": 19.46,
-      "eval_steps_per_second": 2.436,
-      "eval_wer": 0.1781614981876762,
       "step": 500
     },
     {
       "epoch": 4.35,
-      "learning_rate": 9.996376549025293e-06,
-      "loss": 0.0261,
       "step": 600
     },
     {
       "epoch": 5.07,
-      "learning_rate": 9.99565185883035e-06,
-      "loss": 0.0232,
       "step": 700
     },
     {
-      "epoch": 5.43,
-      "eval_loss": 0.21311765909194946,
-      "eval_runtime": 210.5372,
-      "eval_samples_per_second": 18.747,
-      "eval_steps_per_second": 2.346,
-      "eval_wer": 0.1742851389448248,
-      "step": 750
     },
     {
       "epoch": 5.8,
-      "learning_rate": 9.994927168635409e-06,
-      "loss": 0.0239,
       "step": 800
     },
     {
       "epoch": 6.52,
       "learning_rate": 9.994209725342417e-06,
-      "loss": 0.0229,
       "step": 900
     },
     {
       "epoch": 7.25,
       "learning_rate": 9.993485035147475e-06,
-      "loss": 0.023,
       "step": 1000
     },
     {
-      "epoch": 7.25,
-      "eval_loss": 0.21518608927726746,
-      "eval_runtime": 215.7218,
-      "eval_samples_per_second": 18.297,
-      "eval_steps_per_second": 2.29,
-      "eval_wer": 0.17247281514297222,
-      "step": 1000
     }
   ],
   "max_steps": 1380000,
   "num_train_epochs": 10000,
-  "total_flos": 2.2743816298254418e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.752260397830018,
+  "global_step": 2450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.72,
       "learning_rate": 1e-05,
+      "loss": 0.0194,
       "step": 100
     },
     {
       "epoch": 1.45,
       "learning_rate": 9.99927530980506e-06,
+      "loss": 0.0174,
       "step": 200
     },
     {
       "epoch": 2.17,
       "learning_rate": 9.998550619610118e-06,
+      "loss": 0.0197,
       "step": 300
     },
+    {
+      "epoch": 2.54,
+      "eval_loss": 0.2245764136314392,
+      "eval_runtime": 322.1745,
+      "eval_samples_per_second": 12.251,
+      "eval_steps_per_second": 1.533,
+      "eval_wer": 0.17368103101087395,
+      "step": 350
+    },
     {
       "epoch": 2.9,
       "learning_rate": 9.997825929415176e-06,
+      "loss": 0.0205,
       "step": 400
     },
     {
       "epoch": 3.62,
+      "learning_rate": 9.997108486122183e-06,
+      "loss": 0.0199,
       "step": 500
     },
     {
       "epoch": 4.35,
+      "learning_rate": 9.996383795927241e-06,
+      "loss": 0.0198,
       "step": 600
     },
     {
       "epoch": 5.07,
+      "learning_rate": 9.9956591057323e-06,
+      "loss": 0.0193,
       "step": 700
     },
     {
+      "epoch": 5.07,
+      "eval_loss": 0.23122623562812805,
+      "eval_runtime": 209.3421,
+      "eval_samples_per_second": 18.854,
+      "eval_steps_per_second": 2.36,
+      "eval_wer": 0.17217076117599678,
+      "step": 700
     },
     {
       "epoch": 5.8,
+      "learning_rate": 9.994934415537358e-06,
+      "loss": 0.0186,
       "step": 800
     },
     {
       "epoch": 6.52,
       "learning_rate": 9.994209725342417e-06,
+      "loss": 0.0194,
       "step": 900
     },
     {
       "epoch": 7.25,
       "learning_rate": 9.993485035147475e-06,
+      "loss": 0.0186,
       "step": 1000
     },
     {
+      "epoch": 7.61,
+      "eval_loss": 0.2398330122232437,
+      "eval_runtime": 209.0,
+      "eval_samples_per_second": 18.885,
+      "eval_steps_per_second": 2.364,
+      "eval_wer": 0.17232178815948448,
+      "step": 1050
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 9.992760344952534e-06,
+      "loss": 0.0186,
+      "step": 1100
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 9.99203565475759e-06,
+      "loss": 0.0191,
+      "step": 1200
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 9.991310964562651e-06,
+      "loss": 0.0185,
+      "step": 1300
+    },
+    {
+      "epoch": 10.14,
+      "learning_rate": 9.990586274367708e-06,
+      "loss": 0.0171,
+      "step": 1400
+    },
+    {
+      "epoch": 10.14,
+      "eval_loss": 0.24630184471607208,
+      "eval_runtime": 212.2032,
+      "eval_samples_per_second": 18.6,
+      "eval_steps_per_second": 2.328,
+      "eval_wer": 0.17020741039065646,
+      "step": 1400
+    },
+    {
+      "epoch": 10.87,
+      "learning_rate": 9.989861584172766e-06,
+      "loss": 0.0176,
+      "step": 1500
+    },
+    {
+      "epoch": 11.59,
+      "learning_rate": 9.989136893977825e-06,
+      "loss": 0.018,
+      "step": 1600
+    },
+    {
+      "epoch": 12.32,
+      "learning_rate": 9.988412203782883e-06,
+      "loss": 0.0172,
+      "step": 1700
+    },
+    {
+      "epoch": 12.68,
+      "eval_loss": 0.24790118634700775,
+      "eval_runtime": 215.9062,
+      "eval_samples_per_second": 18.281,
+      "eval_steps_per_second": 2.288,
+      "eval_wer": 0.17081151832460734,
+      "step": 1750
+    },
+    {
+      "epoch": 13.04,
+      "learning_rate": 9.987687513587942e-06,
+      "loss": 0.0172,
+      "step": 1800
+    },
+    {
+      "epoch": 13.77,
+      "learning_rate": 9.986962823393e-06,
+      "loss": 0.0165,
+      "step": 1900
+    },
+    {
+      "epoch": 14.49,
+      "learning_rate": 9.986238133198059e-06,
+      "loss": 0.0176,
+      "step": 2000
+    },
+    {
+      "epoch": 15.22,
+      "learning_rate": 9.985513443003117e-06,
+      "loss": 0.0173,
+      "step": 2100
+    },
+    {
+      "epoch": 15.22,
+      "eval_loss": 0.24780623614788055,
+      "eval_runtime": 215.4375,
+      "eval_samples_per_second": 18.321,
+      "eval_steps_per_second": 2.293,
+      "eval_wer": 0.17015706806282724,
+      "step": 2100
+    },
+    {
+      "epoch": 15.94,
+      "learning_rate": 9.984788752808176e-06,
+      "loss": 0.0168,
+      "step": 2200
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 9.984064062613234e-06,
+      "loss": 0.0165,
+      "step": 2300
+    },
+    {
+      "epoch": 17.39,
+      "learning_rate": 9.983339372418293e-06,
+      "loss": 0.0169,
+      "step": 2400
+    },
+    {
+      "epoch": 17.75,
+      "eval_loss": 0.24955050647258759,
+      "eval_runtime": 224.6408,
+      "eval_samples_per_second": 17.57,
+      "eval_steps_per_second": 2.199,
+      "eval_wer": 0.1689488521949255,
+      "step": 2450
     }
   ],
   "max_steps": 1380000,
   "num_train_epochs": 10000,
+  "total_flos": 5.57531310441053e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f835e214c90a10026201ea65e17731cdf49397e7fb8e4bb791dfaf52ba09d5b1
 size 3323

 version https://git-lfs.github.com/spec/v1
+oid sha256:3393125c7f14a291727a873967ef481f803e54d70aa9f3fcdf615773d38c2b19
 size 3323