End of training

Browse files

Files changed (7) hide show

README.md +5 -5
all_results.json +9 -9
egy_training_log.txt +2 -0
eval_results.json +4 -4
train_results.json +6 -6
train_vs_val_loss.png +0 -0
trainer_state.json +105 -10

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [riotu-lab/ArabianGPT-01B](https://huggingface.co/riotu-lab/ArabianGPT-01B) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5049
-- Bleu: 0.2594
-- Rouge1: 0.6161
-- Rouge2: 0.3829
-- Rougel: 0.6125
 ## Model description

 This model is a fine-tuned version of [riotu-lab/ArabianGPT-01B](https://huggingface.co/riotu-lab/ArabianGPT-01B) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4720
+- Bleu: 0.2297
+- Rouge1: 0.5777
+- Rouge2: 0.3341
+- Rougel: 0.5758
 ## Model description

all_results.json CHANGED Viewed

@@ -1,19 +1,19 @@
 {
-    "epoch": 11.0,
     "eval_bleu": 0.22970619705356748,
     "eval_loss": 0.47202983498573303,
     "eval_rouge1": 0.5777164933812552,
     "eval_rouge2": 0.33405816844574837,
     "eval_rougeL": 0.5758449342460217,
-    "eval_runtime": 1.2669,
     "eval_samples": 304,
-    "eval_samples_per_second": 239.949,
-    "eval_steps_per_second": 29.994,
     "perplexity": 1.603245215811176,
-    "total_flos": 876634767360000.0,
-    "train_loss": 0.9867972013005457,
-    "train_runtime": 2886.3238,
     "train_samples": 1220,
-    "train_samples_per_second": 8.454,
-    "train_steps_per_second": 1.06
 }

 {
+    "epoch": 16.0,
     "eval_bleu": 0.22970619705356748,
     "eval_loss": 0.47202983498573303,
     "eval_rouge1": 0.5777164933812552,
     "eval_rouge2": 0.33405816844574837,
     "eval_rougeL": 0.5758449342460217,
+    "eval_runtime": 3.3676,
     "eval_samples": 304,
+    "eval_samples_per_second": 90.273,
+    "eval_steps_per_second": 11.284,
     "perplexity": 1.603245215811176,
+    "total_flos": 1275105116160000.0,
+    "train_loss": 0.024901744976542354,
+    "train_runtime": 209.6658,
     "train_samples": 1220,
+    "train_samples_per_second": 116.376,
+    "train_steps_per_second": 14.595
 }

egy_training_log.txt CHANGED Viewed

@@ -325,3 +325,5 @@ INFO:root:Epoch 15.0: Train Loss = 0.0787, Eval Loss = 0.5004830360412598
 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 16.0: Train Loss = 0.0757, Eval Loss = 0.5019999146461487
 INFO:absl:Using default tokenizer.

 INFO:absl:Using default tokenizer.
 INFO:root:Epoch 16.0: Train Loss = 0.0757, Eval Loss = 0.5019999146461487
 INFO:absl:Using default tokenizer.
+INFO:__main__:*** Evaluate ***
+INFO:absl:Using default tokenizer.

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 11.0,
     "eval_bleu": 0.22970619705356748,
     "eval_loss": 0.47202983498573303,
     "eval_rouge1": 0.5777164933812552,
     "eval_rouge2": 0.33405816844574837,
     "eval_rougeL": 0.5758449342460217,
-    "eval_runtime": 1.2669,
     "eval_samples": 304,
-    "eval_samples_per_second": 239.949,
-    "eval_steps_per_second": 29.994,
     "perplexity": 1.603245215811176
 }

 {
+    "epoch": 16.0,
     "eval_bleu": 0.22970619705356748,
     "eval_loss": 0.47202983498573303,
     "eval_rouge1": 0.5777164933812552,
     "eval_rouge2": 0.33405816844574837,
     "eval_rougeL": 0.5758449342460217,
+    "eval_runtime": 3.3676,
     "eval_samples": 304,
+    "eval_samples_per_second": 90.273,
+    "eval_steps_per_second": 11.284,
     "perplexity": 1.603245215811176
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 11.0,
-    "total_flos": 876634767360000.0,
-    "train_loss": 0.9867972013005457,
-    "train_runtime": 2886.3238,
     "train_samples": 1220,
-    "train_samples_per_second": 8.454,
-    "train_steps_per_second": 1.06
 }

 {
+    "epoch": 16.0,
+    "total_flos": 1275105116160000.0,
+    "train_loss": 0.024901744976542354,
+    "train_runtime": 209.6658,
     "train_samples": 1220,
+    "train_samples_per_second": 116.376,
+    "train_steps_per_second": 14.595
 }

train_vs_val_loss.png CHANGED Viewed

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.47202983498573303,
   "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_yem/checkpoint-918",
-  "epoch": 11.0,
   "eval_steps": 500,
-  "global_step": 1683,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -218,13 +218,108 @@
       "step": 1683
     },
     {
-      "epoch": 11.0,
-      "step": 1683,
-      "total_flos": 876634767360000.0,
-      "train_loss": 0.9867972013005457,
-      "train_runtime": 2886.3238,
-      "train_samples_per_second": 8.454,
-      "train_steps_per_second": 1.06
     }
   ],
   "logging_steps": 500,
@@ -253,7 +348,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 876634767360000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.47202983498573303,
   "best_model_checkpoint": "/home/iais_marenpielka/Bouthaina/res_nw_yem/checkpoint-918",
+  "epoch": 16.0,
   "eval_steps": 500,
+  "global_step": 2448,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 1683
     },
     {
+      "epoch": 12.0,
+      "grad_norm": 0.6220578551292419,
+      "learning_rate": 2.3906250000000002e-05,
+      "loss": 0.0875,
+      "step": 1836
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 0.25506926105311084,
+      "eval_loss": 0.4913596212863922,
+      "eval_rouge1": 0.6097696683692526,
+      "eval_rouge2": 0.38019766139150524,
+      "eval_rougeL": 0.6055686891522601,
+      "eval_runtime": 2.0886,
+      "eval_samples_per_second": 145.549,
+      "eval_steps_per_second": 18.194,
+      "step": 1836
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.7318098545074463,
+      "learning_rate": 2.091796875e-05,
+      "loss": 0.0825,
+      "step": 1989
+    },
+    {
+      "epoch": 13.0,
+      "eval_bleu": 0.26272086017465046,
+      "eval_loss": 0.4981193542480469,
+      "eval_rouge1": 0.6144877321856528,
+      "eval_rouge2": 0.3872195934378641,
+      "eval_rougeL": 0.6108120100650027,
+      "eval_runtime": 1.1422,
+      "eval_samples_per_second": 266.148,
+      "eval_steps_per_second": 33.268,
+      "step": 1989
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.794402539730072,
+      "learning_rate": 1.79296875e-05,
+      "loss": 0.0787,
+      "step": 2142
+    },
+    {
+      "epoch": 14.0,
+      "eval_bleu": 0.25895474712357536,
+      "eval_loss": 0.5004830360412598,
+      "eval_rouge1": 0.6138305476317043,
+      "eval_rouge2": 0.3796550798534031,
+      "eval_rougeL": 0.6100541920692137,
+      "eval_runtime": 1.1033,
+      "eval_samples_per_second": 275.529,
+      "eval_steps_per_second": 34.441,
+      "step": 2142
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.7674385905265808,
+      "learning_rate": 1.4941406250000001e-05,
+      "loss": 0.0757,
+      "step": 2295
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 0.2632177488955002,
+      "eval_loss": 0.5019999146461487,
+      "eval_rouge1": 0.6170590027553351,
+      "eval_rouge2": 0.3850023586523127,
+      "eval_rougeL": 0.6140574753716048,
+      "eval_runtime": 4.8266,
+      "eval_samples_per_second": 62.985,
+      "eval_steps_per_second": 7.873,
+      "step": 2295
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.7136771082878113,
+      "learning_rate": 1.1953125000000001e-05,
+      "loss": 0.074,
+      "step": 2448
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 0.25943804422988964,
+      "eval_loss": 0.5049206018447876,
+      "eval_rouge1": 0.6161012779292924,
+      "eval_rouge2": 0.3828890396119353,
+      "eval_rougeL": 0.6124852816095869,
+      "eval_runtime": 1.0975,
+      "eval_samples_per_second": 276.998,
+      "eval_steps_per_second": 34.625,
+      "step": 2448
+    },
+    {
+      "epoch": 16.0,
+      "step": 2448,
+      "total_flos": 1275105116160000.0,
+      "train_loss": 0.024901744976542354,
+      "train_runtime": 209.6658,
+      "train_samples_per_second": 116.376,
+      "train_steps_per_second": 14.595
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1275105116160000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null