End of training

Browse files

Files changed (5) hide show

README.md +3 -1
all_results.json +9 -9
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +239 -103

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: mit
 base_model: unicamp-dl/ptt5-small-t5-vocab
 tags:
 - generated_from_trainer
 model-index:
 - name: t5_small-qg-aap
   results: []
@@ -13,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # t5_small-qg-aap
-This model is a fine-tuned version of [unicamp-dl/ptt5-small-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-small-t5-vocab) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 6.5105

 base_model: unicamp-dl/ptt5-small-t5-vocab
 tags:
 - generated_from_trainer
+datasets:
+- tiagoblima/qg_squad_v1_pt
 model-index:
 - name: t5_small-qg-aap
   results: []
 # t5_small-qg-aap
+This model is a fine-tuned version of [unicamp-dl/ptt5-small-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-small-t5-vocab) on the tiagoblima/qg_squad_v1_pt dataset.
 It achieves the following results on the evaluation set:
 - Loss: 6.5105

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 15.0,
-    "eval_loss": 1.4212826490402222,
-    "eval_runtime": 78.3846,
     "eval_samples": 8869,
-    "eval_samples_per_second": 113.147,
-    "eval_steps_per_second": 14.148,
-    "train_loss": 1.1541598279090604,
-    "train_runtime": 16985.3317,
     "train_samples": 51704,
-    "train_samples_per_second": 45.661,
-    "train_steps_per_second": 0.714
 }

 {
+    "epoch": 5.0,
+    "eval_loss": 6.510499000549316,
+    "eval_runtime": 87.9157,
     "eval_samples": 8869,
+    "eval_samples_per_second": 100.881,
+    "eval_steps_per_second": 25.229,
+    "train_loss": 5.794503840833607,
+    "train_runtime": 2995.2119,
     "train_samples": 51704,
+    "train_samples_per_second": 86.311,
+    "train_steps_per_second": 1.349
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.0,
-    "eval_loss": 1.4212826490402222,
-    "eval_runtime": 78.3846,
     "eval_samples": 8869,
-    "eval_samples_per_second": 113.147,
-    "eval_steps_per_second": 14.148
 }

 {
+    "epoch": 5.0,
+    "eval_loss": 6.510499000549316,
+    "eval_runtime": 87.9157,
     "eval_samples": 8869,
+    "eval_samples_per_second": 100.881,
+    "eval_steps_per_second": 25.229
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.0,
-    "train_loss": 1.1541598279090604,
-    "train_runtime": 16985.3317,
     "train_samples": 51704,
-    "train_samples_per_second": 45.661,
-    "train_steps_per_second": 0.714
 }

 {
+    "epoch": 5.0,
+    "train_loss": 5.794503840833607,
+    "train_runtime": 2995.2119,
     "train_samples": 51704,
+    "train_samples_per_second": 86.311,
+    "train_steps_per_second": 1.349
 }

trainer_state.json CHANGED Viewed

@@ -1,172 +1,308 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 15.0,
   "eval_steps": 500,
-  "global_step": 12120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.62,
-      "learning_rate": 9.690594059405941e-05,
-      "loss": 1.7898,
       "step": 500
     },
     {
       "epoch": 1.24,
-      "learning_rate": 9.174917491749175e-05,
-      "loss": 1.4524,
       "step": 1000
     },
     {
       "epoch": 1.86,
-      "learning_rate": 8.762376237623763e-05,
-      "loss": 1.3819,
       "step": 1500
     },
     {
       "epoch": 2.48,
-      "learning_rate": 8.34983498349835e-05,
-      "loss": 1.3341,
       "step": 2000
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 7.937293729372938e-05,
-      "loss": 1.3073,
-      "step": 2500
     },
     {
-      "epoch": 3.71,
-      "learning_rate": 7.524752475247526e-05,
-      "loss": 1.2771,
-      "step": 3000
     },
     {
-      "epoch": 4.33,
-      "learning_rate": 7.112211221122112e-05,
-      "loss": 1.2567,
-      "step": 3500
     },
     {
-      "epoch": 4.95,
-      "learning_rate": 6.6996699669967e-05,
-      "loss": 1.2378,
-      "step": 4000
     },
     {
-      "epoch": 5.57,
-      "learning_rate": 6.287128712871287e-05,
-      "loss": 1.2201,
-      "step": 4500
     },
     {
-      "epoch": 6.19,
-      "learning_rate": 5.874587458745875e-05,
-      "loss": 1.2095,
-      "step": 5000
     },
     {
-      "epoch": 6.81,
-      "learning_rate": 5.462046204620462e-05,
-      "loss": 1.1963,
-      "step": 5500
     },
     {
-      "epoch": 7.43,
-      "learning_rate": 5.0495049504950497e-05,
-      "loss": 1.1768,
-      "step": 6000
     },
     {
-      "epoch": 8.04,
-      "learning_rate": 4.636963696369637e-05,
-      "loss": 1.1763,
-      "step": 6500
     },
     {
-      "epoch": 8.66,
-      "learning_rate": 4.224422442244225e-05,
-      "loss": 1.1606,
-      "step": 7000
     },
     {
-      "epoch": 9.28,
-      "learning_rate": 3.811881188118812e-05,
-      "loss": 1.156,
-      "step": 7500
     },
     {
-      "epoch": 9.9,
-      "learning_rate": 3.3993399339933996e-05,
-      "loss": 1.1516,
-      "step": 8000
     },
     {
-      "epoch": 10.52,
-      "learning_rate": 2.986798679867987e-05,
-      "loss": 1.1371,
-      "step": 8500
     },
     {
-      "epoch": 11.14,
-      "learning_rate": 2.5742574257425746e-05,
-      "loss": 1.1417,
-      "step": 9000
     },
     {
-      "epoch": 11.76,
-      "learning_rate": 2.161716171617162e-05,
-      "loss": 1.1285,
-      "step": 9500
     },
     {
-      "epoch": 12.38,
-      "learning_rate": 1.7491749174917492e-05,
-      "loss": 1.1302,
-      "step": 10000
     },
     {
-      "epoch": 13.0,
-      "learning_rate": 1.3366336633663367e-05,
-      "loss": 1.1223,
-      "step": 10500
     },
     {
-      "epoch": 13.61,
-      "learning_rate": 9.24092409240924e-06,
-      "loss": 1.1192,
-      "step": 11000
     },
     {
-      "epoch": 14.23,
-      "learning_rate": 5.115511551155116e-06,
-      "loss": 1.122,
-      "step": 11500
     },
     {
-      "epoch": 14.85,
-      "learning_rate": 9.900990099009902e-07,
-      "loss": 1.1116,
-      "step": 12000
     },
     {
-      "epoch": 15.0,
-      "step": 12120,
-      "total_flos": 7.872426566221824e+16,
-      "train_loss": 1.1541598279090604,
-      "train_runtime": 16985.3317,
-      "train_samples_per_second": 45.661,
-      "train_steps_per_second": 0.714
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 12120,
-  "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 7.872426566221824e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 6.510499000549316,
+  "best_model_checkpoint": "/temp/t5_small-qg-aap/checkpoint-4040",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 4040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.004876237623762376,
+      "loss": 8.0829,
+      "step": 100
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.004752475247524752,
+      "loss": 7.6287,
+      "step": 200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.004628712871287129,
+      "loss": 7.3201,
+      "step": 300
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0045049504950495055,
+      "loss": 7.066,
+      "step": 400
+    },
     {
       "epoch": 0.62,
+      "learning_rate": 0.004381188118811882,
+      "loss": 6.8463,
       "step": 500
     },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.004257425742574258,
+      "loss": 6.696,
+      "step": 600
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.004133663366336634,
+      "loss": 6.5656,
+      "step": 700
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00400990099009901,
+      "loss": 6.4555,
+      "step": 800
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 8.181524276733398,
+      "eval_runtime": 87.6052,
+      "eval_samples_per_second": 101.238,
+      "eval_steps_per_second": 25.318,
+      "step": 808
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0038861386138613866,
+      "loss": 6.3186,
+      "step": 900
+    },
     {
       "epoch": 1.24,
+      "learning_rate": 0.0037623762376237627,
+      "loss": 6.2484,
       "step": 1000
     },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0036386138613861384,
+      "loss": 6.1225,
+      "step": 1100
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0035148514851485145,
+      "loss": 6.0828,
+      "step": 1200
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0033910891089108915,
+      "loss": 5.9965,
+      "step": 1300
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0032673267326732676,
+      "loss": 5.888,
+      "step": 1400
+    },
     {
       "epoch": 1.86,
+      "learning_rate": 0.0031435643564356438,
+      "loss": 5.8093,
       "step": 1500
     },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00301980198019802,
+      "loss": 5.7684,
+      "step": 1600
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 7.345946788787842,
+      "eval_runtime": 87.5869,
+      "eval_samples_per_second": 101.259,
+      "eval_steps_per_second": 25.323,
+      "step": 1616
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.002896039603960396,
+      "loss": 5.6732,
+      "step": 1700
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0027722772277227726,
+      "loss": 5.6518,
+      "step": 1800
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0026485148514851487,
+      "loss": 5.5807,
+      "step": 1900
+    },
     {
       "epoch": 2.48,
+      "learning_rate": 0.002524752475247525,
+      "loss": 5.5466,
       "step": 2000
     },
     {
+      "epoch": 2.6,
+      "learning_rate": 0.002400990099009901,
+      "loss": 5.5098,
+      "step": 2100
     },
     {
+      "epoch": 2.72,
+      "learning_rate": 0.0022772277227722775,
+      "loss": 5.462,
+      "step": 2200
     },
     {
+      "epoch": 2.85,
+      "learning_rate": 0.0021534653465346536,
+      "loss": 5.4502,
+      "step": 2300
     },
     {
+      "epoch": 2.97,
+      "learning_rate": 0.0020297029702970298,
+      "loss": 5.3707,
+      "step": 2400
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 6.852190971374512,
+      "eval_runtime": 87.7618,
+      "eval_samples_per_second": 101.058,
+      "eval_steps_per_second": 25.273,
+      "step": 2424
     },
     {
+      "epoch": 3.09,
+      "learning_rate": 0.0019059405940594061,
+      "loss": 5.3459,
+      "step": 2500
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.001782178217821782,
+      "loss": 5.3014,
+      "step": 2600
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.0016584158415841586,
+      "loss": 5.3001,
+      "step": 2700
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 0.0015346534653465347,
+      "loss": 5.2818,
+      "step": 2800
     },
     {
+      "epoch": 3.59,
+      "learning_rate": 0.0014108910891089108,
+      "loss": 5.23,
+      "step": 2900
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 0.0012871287128712872,
+      "loss": 5.185,
+      "step": 3000
     },
     {
+      "epoch": 3.84,
+      "learning_rate": 0.0011633663366336635,
+      "loss": 5.176,
+      "step": 3100
     },
     {
+      "epoch": 3.96,
+      "learning_rate": 0.0010396039603960397,
+      "loss": 5.1609,
+      "step": 3200
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 6.593112945556641,
+      "eval_runtime": 87.448,
+      "eval_samples_per_second": 101.42,
+      "eval_steps_per_second": 25.364,
+      "step": 3232
     },
     {
+      "epoch": 4.08,
+      "learning_rate": 0.0009158415841584158,
+      "loss": 5.1834,
+      "step": 3300
     },
     {
+      "epoch": 4.21,
+      "learning_rate": 0.0007920792079207921,
+      "loss": 5.1021,
+      "step": 3400
     },
     {
+      "epoch": 4.33,
+      "learning_rate": 0.0006683168316831684,
+      "loss": 5.1443,
+      "step": 3500
     },
     {
+      "epoch": 4.46,
+      "learning_rate": 0.0005445544554455446,
+      "loss": 5.0904,
+      "step": 3600
     },
     {
+      "epoch": 4.58,
+      "learning_rate": 0.00042079207920792084,
+      "loss": 5.0949,
+      "step": 3700
     },
     {
+      "epoch": 4.7,
+      "learning_rate": 0.000297029702970297,
+      "loss": 5.0856,
+      "step": 3800
     },
     {
+      "epoch": 4.83,
+      "learning_rate": 0.00017326732673267329,
+      "loss": 5.1251,
+      "step": 3900
     },
     {
+      "epoch": 4.95,
+      "learning_rate": 4.950495049504951e-05,
+      "loss": 5.1034,
+      "step": 4000
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 6.510499000549316,
+      "eval_runtime": 87.5193,
+      "eval_samples_per_second": 101.338,
+      "eval_steps_per_second": 25.343,
+      "step": 4040
     },
     {
+      "epoch": 5.0,
+      "step": 4040,
+      "total_flos": 3.621491878920192e+16,
+      "train_loss": 5.794503840833607,
+      "train_runtime": 2995.2119,
+      "train_samples_per_second": 86.311,
+      "train_steps_per_second": 1.349
     }
   ],
+  "logging_steps": 100,
+  "max_steps": 4040,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 3.621491878920192e+16,
   "trial_name": null,
   "trial_params": null
 }