initial commit

Browse files

Files changed (9) hide show

README.md +12 -12
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/May01_17-28-34_e5fd9b370bfd/events.out.tfevents.1714584515.e5fd9b370bfd.197.0 +3 -0
runs/May01_17-28-34_e5fd9b370bfd/events.out.tfevents.1714585252.e5fd9b370bfd.197.1 +3 -0
train_results.json +4 -4
trainer_state.json +234 -234
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: trpakov/chest-xray-classification
       type: imagefolder
       config: default
       split: Testing
@@ -23,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.748730964467005
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-base-brain-xray
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the trpakov/chest-xray-classification dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8358
-- Accuracy: 0.7487
 ## Model description
@@ -66,13 +66,13 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
-| 0.2744        | 0.5556 | 100  | 0.8358          | 0.7487   |
-| 0.1827        | 1.1111 | 200  | 1.0390          | 0.7538   |
-| 0.1388        | 1.6667 | 300  | 1.1603          | 0.7563   |
-| 0.0317        | 2.2222 | 400  | 1.2382          | 0.7538   |
-| 0.0144        | 2.7778 | 500  | 1.2834          | 0.7513   |
-| 0.0062        | 3.3333 | 600  | 1.3673          | 0.7563   |
-| 0.0257        | 3.8889 | 700  | 1.2926          | 0.7665   |
 ### Framework versions

       name: Image Classification
       type: image-classification
     dataset:
+      name: sartajbhuvaji/Brain-Tumor-Classification
       type: imagefolder
       config: default
       split: Testing
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.6903553299492385
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # vit-base-brain-xray
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the sartajbhuvaji/Brain-Tumor-Classification dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9079
+- Accuracy: 0.6904
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss | Accuracy |
 |:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.2478        | 0.5556 | 100  | 0.9079          | 0.6904   |
+| 0.1499        | 1.1111 | 200  | 1.1543          | 0.7183   |
+| 0.0872        | 1.6667 | 300  | 1.1469          | 0.7614   |
+| 0.0118        | 2.2222 | 400  | 1.2361          | 0.7259   |
+| 0.0077        | 2.7778 | 500  | 1.2023          | 0.7665   |
+| 0.0057        | 3.3333 | 600  | 1.2470          | 0.7640   |
+| 0.0053        | 3.8889 | 700  | 1.2096          | 0.7766   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.748730964467005,
-    "eval_loss": 0.835834801197052,
-    "eval_runtime": 6.8785,
-    "eval_samples_per_second": 57.28,
-    "eval_steps_per_second": 7.269,
     "total_flos": 8.896239873264845e+17,
-    "train_loss": 0.14669639009775387,
-    "train_runtime": 706.4893,
-    "train_samples_per_second": 16.249,
-    "train_steps_per_second": 1.019
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.6903553299492385,
+    "eval_loss": 0.907917320728302,
+    "eval_runtime": 6.3301,
+    "eval_samples_per_second": 62.243,
+    "eval_steps_per_second": 7.899,
     "total_flos": 8.896239873264845e+17,
+    "train_loss": 0.12508326765770714,
+    "train_runtime": 729.602,
+    "train_samples_per_second": 15.735,
+    "train_steps_per_second": 0.987
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
-    "eval_accuracy": 0.748730964467005,
-    "eval_loss": 0.835834801197052,
-    "eval_runtime": 6.8785,
-    "eval_samples_per_second": 57.28,
-    "eval_steps_per_second": 7.269
 }

 {
     "epoch": 4.0,
+    "eval_accuracy": 0.6903553299492385,
+    "eval_loss": 0.907917320728302,
+    "eval_runtime": 6.3301,
+    "eval_samples_per_second": 62.243,
+    "eval_steps_per_second": 7.899
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:864dda7ffb7fb28c594efd1d1671a5b679121dc9f6e3bdee84cd3d6ab4f0b2e9
 size 343230128

 version https://git-lfs.github.com/spec/v1
+oid sha256:c227906032c442ae079e617ca72129da0a452e7febd5fc0ad1725fb8aa40e959
 size 343230128

runs/May01_17-28-34_e5fd9b370bfd/events.out.tfevents.1714584515.e5fd9b370bfd.197.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cc6b9a201d2655907073a677e4857c96edc3d867e34b88bff75ade0d4a46458
+size 22559

runs/May01_17-28-34_e5fd9b370bfd/events.out.tfevents.1714585252.e5fd9b370bfd.197.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9536aa1016b0f62f3008701a30c91f638a9fb6330414484f8652ef8c0fb4a4cf
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.0,
     "total_flos": 8.896239873264845e+17,
-    "train_loss": 0.14669639009775387,
-    "train_runtime": 706.4893,
-    "train_samples_per_second": 16.249,
-    "train_steps_per_second": 1.019
 }

 {
     "epoch": 4.0,
     "total_flos": 8.896239873264845e+17,
+    "train_loss": 0.12508326765770714,
+    "train_runtime": 729.602,
+    "train_samples_per_second": 15.735,
+    "train_steps_per_second": 0.987
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.835834801197052,
   "best_model_checkpoint": "./vit-base-brain-xray/checkpoint-100",
   "epoch": 4.0,
   "eval_steps": 100,
@@ -10,579 +10,579 @@
   "log_history": [
     {
       "epoch": 0.05555555555555555,
-      "grad_norm": 1.457318902015686,
       "learning_rate": 0.00019722222222222225,
-      "loss": 1.2565,
       "step": 10
     },
     {
       "epoch": 0.1111111111111111,
-      "grad_norm": 3.82407546043396,
       "learning_rate": 0.00019444444444444446,
-      "loss": 0.8929,
       "step": 20
     },
     {
       "epoch": 0.16666666666666666,
-      "grad_norm": 4.85036563873291,
-      "learning_rate": 0.00019194444444444445,
-      "loss": 0.6711,
       "step": 30
     },
     {
       "epoch": 0.2222222222222222,
-      "grad_norm": 3.555527448654175,
-      "learning_rate": 0.00018916666666666667,
-      "loss": 0.6418,
       "step": 40
     },
     {
       "epoch": 0.2777777777777778,
-      "grad_norm": 1.600785493850708,
-      "learning_rate": 0.0001863888888888889,
-      "loss": 0.394,
       "step": 50
     },
     {
       "epoch": 0.3333333333333333,
-      "grad_norm": 2.9066975116729736,
-      "learning_rate": 0.00018361111111111112,
-      "loss": 0.3582,
       "step": 60
     },
     {
       "epoch": 0.3888888888888889,
-      "grad_norm": 14.741374015808105,
-      "learning_rate": 0.00018083333333333336,
-      "loss": 0.2914,
       "step": 70
     },
     {
       "epoch": 0.4444444444444444,
-      "grad_norm": 0.9466112852096558,
-      "learning_rate": 0.00017805555555555554,
-      "loss": 0.3652,
       "step": 80
     },
     {
       "epoch": 0.5,
-      "grad_norm": 4.149740219116211,
-      "learning_rate": 0.00017527777777777778,
-      "loss": 0.304,
       "step": 90
     },
     {
       "epoch": 0.5555555555555556,
-      "grad_norm": 5.231202602386475,
-      "learning_rate": 0.00017250000000000002,
-      "loss": 0.2744,
       "step": 100
     },
     {
       "epoch": 0.5555555555555556,
-      "eval_accuracy": 0.748730964467005,
-      "eval_loss": 0.835834801197052,
-      "eval_runtime": 5.9808,
-      "eval_samples_per_second": 65.878,
-      "eval_steps_per_second": 8.36,
       "step": 100
     },
     {
       "epoch": 0.6111111111111112,
-      "grad_norm": 1.9157915115356445,
-      "learning_rate": 0.00016972222222222223,
-      "loss": 0.3693,
       "step": 110
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 2.3532416820526123,
-      "learning_rate": 0.00016694444444444447,
-      "loss": 0.279,
       "step": 120
     },
     {
       "epoch": 0.7222222222222222,
-      "grad_norm": 1.710641622543335,
-      "learning_rate": 0.00016416666666666668,
-      "loss": 0.3063,
       "step": 130
     },
     {
       "epoch": 0.7777777777777778,
-      "grad_norm": 1.234641671180725,
-      "learning_rate": 0.0001613888888888889,
-      "loss": 0.2406,
       "step": 140
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 4.92686128616333,
-      "learning_rate": 0.0001586111111111111,
-      "loss": 0.1533,
       "step": 150
     },
     {
       "epoch": 0.8888888888888888,
-      "grad_norm": 1.5904611349105835,
-      "learning_rate": 0.00015583333333333334,
-      "loss": 0.3904,
       "step": 160
     },
     {
       "epoch": 0.9444444444444444,
-      "grad_norm": 1.492967963218689,
-      "learning_rate": 0.00015305555555555556,
-      "loss": 0.2801,
       "step": 170
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.659793496131897,
-      "learning_rate": 0.0001502777777777778,
-      "loss": 0.1252,
       "step": 180
     },
     {
       "epoch": 1.0555555555555556,
-      "grad_norm": 0.14820006489753723,
-      "learning_rate": 0.0001475,
-      "loss": 0.1642,
       "step": 190
     },
     {
       "epoch": 1.1111111111111112,
-      "grad_norm": 0.7576877474784851,
-      "learning_rate": 0.00014472222222222222,
-      "loss": 0.1827,
       "step": 200
     },
     {
       "epoch": 1.1111111111111112,
-      "eval_accuracy": 0.7538071065989848,
-      "eval_loss": 1.0389611721038818,
-      "eval_runtime": 5.6831,
-      "eval_samples_per_second": 69.329,
-      "eval_steps_per_second": 8.798,
       "step": 200
     },
     {
       "epoch": 1.1666666666666667,
-      "grad_norm": 0.4443973898887634,
-      "learning_rate": 0.00014194444444444446,
-      "loss": 0.0592,
       "step": 210
     },
     {
       "epoch": 1.2222222222222223,
-      "grad_norm": 0.3489253520965576,
-      "learning_rate": 0.00013916666666666667,
-      "loss": 0.1018,
       "step": 220
     },
     {
       "epoch": 1.2777777777777777,
-      "grad_norm": 5.467538356781006,
-      "learning_rate": 0.0001363888888888889,
-      "loss": 0.2501,
       "step": 230
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 6.154897212982178,
-      "learning_rate": 0.00013361111111111112,
-      "loss": 0.1069,
       "step": 240
     },
     {
       "epoch": 1.3888888888888888,
-      "grad_norm": 3.4137511253356934,
-      "learning_rate": 0.00013083333333333333,
-      "loss": 0.1197,
       "step": 250
     },
     {
       "epoch": 1.4444444444444444,
-      "grad_norm": 0.10232915729284286,
-      "learning_rate": 0.00012805555555555555,
-      "loss": 0.0775,
       "step": 260
     },
     {
       "epoch": 1.5,
-      "grad_norm": 7.005762100219727,
-      "learning_rate": 0.00012527777777777778,
-      "loss": 0.0696,
       "step": 270
     },
     {
       "epoch": 1.5555555555555556,
-      "grad_norm": 0.07964391261339188,
-      "learning_rate": 0.00012250000000000002,
-      "loss": 0.1653,
       "step": 280
     },
     {
       "epoch": 1.6111111111111112,
-      "grad_norm": 0.11174969375133514,
-      "learning_rate": 0.00011972222222222222,
-      "loss": 0.1197,
       "step": 290
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 3.8659260272979736,
-      "learning_rate": 0.00011694444444444446,
-      "loss": 0.1388,
       "step": 300
     },
     {
       "epoch": 1.6666666666666665,
-      "eval_accuracy": 0.7563451776649747,
-      "eval_loss": 1.1603448390960693,
-      "eval_runtime": 6.2506,
-      "eval_samples_per_second": 63.034,
-      "eval_steps_per_second": 7.999,
       "step": 300
     },
     {
       "epoch": 1.7222222222222223,
-      "grad_norm": 7.424672603607178,
-      "learning_rate": 0.00011416666666666667,
-      "loss": 0.0839,
       "step": 310
     },
     {
       "epoch": 1.7777777777777777,
-      "grad_norm": 0.29123783111572266,
-      "learning_rate": 0.0001113888888888889,
-      "loss": 0.0723,
       "step": 320
     },
     {
       "epoch": 1.8333333333333335,
-      "grad_norm": 0.14032256603240967,
-      "learning_rate": 0.00010861111111111111,
-      "loss": 0.124,
       "step": 330
     },
     {
       "epoch": 1.8888888888888888,
-      "grad_norm": 4.837493419647217,
-      "learning_rate": 0.00010583333333333334,
-      "loss": 0.0309,
       "step": 340
     },
     {
       "epoch": 1.9444444444444444,
-      "grad_norm": 0.18860341608524323,
-      "learning_rate": 0.00010305555555555555,
-      "loss": 0.0869,
       "step": 350
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.197811245918274,
-      "learning_rate": 0.00010027777777777779,
-      "loss": 0.062,
       "step": 360
     },
     {
       "epoch": 2.0555555555555554,
-      "grad_norm": 0.10622766613960266,
-      "learning_rate": 9.75e-05,
-      "loss": 0.0838,
       "step": 370
     },
     {
       "epoch": 2.111111111111111,
-      "grad_norm": 1.5650070905685425,
-      "learning_rate": 9.472222222222222e-05,
-      "loss": 0.0176,
       "step": 380
     },
     {
       "epoch": 2.1666666666666665,
-      "grad_norm": 1.4861363172531128,
-      "learning_rate": 9.194444444444445e-05,
-      "loss": 0.0491,
       "step": 390
     },
     {
       "epoch": 2.2222222222222223,
-      "grad_norm": 0.04418288543820381,
-      "learning_rate": 8.916666666666667e-05,
-      "loss": 0.0317,
       "step": 400
     },
     {
       "epoch": 2.2222222222222223,
-      "eval_accuracy": 0.7538071065989848,
-      "eval_loss": 1.2381576299667358,
-      "eval_runtime": 5.5644,
-      "eval_samples_per_second": 70.808,
-      "eval_steps_per_second": 8.986,
       "step": 400
     },
     {
       "epoch": 2.2777777777777777,
-      "grad_norm": 2.111614942550659,
-      "learning_rate": 8.63888888888889e-05,
-      "loss": 0.0549,
       "step": 410
     },
     {
       "epoch": 2.3333333333333335,
-      "grad_norm": 0.1938694566488266,
-      "learning_rate": 8.361111111111111e-05,
-      "loss": 0.0283,
       "step": 420
     },
     {
       "epoch": 2.388888888888889,
-      "grad_norm": 0.03959764540195465,
-      "learning_rate": 8.083333333333334e-05,
-      "loss": 0.0154,
       "step": 430
     },
     {
       "epoch": 2.4444444444444446,
-      "grad_norm": 0.037873394787311554,
-      "learning_rate": 7.805555555555556e-05,
-      "loss": 0.0442,
       "step": 440
     },
     {
       "epoch": 2.5,
-      "grad_norm": 0.04417656734585762,
-      "learning_rate": 7.527777777777777e-05,
-      "loss": 0.0139,
       "step": 450
     },
     {
       "epoch": 2.5555555555555554,
-      "grad_norm": 0.49554577469825745,
-      "learning_rate": 7.25e-05,
-      "loss": 0.0465,
       "step": 460
     },
     {
       "epoch": 2.611111111111111,
-      "grad_norm": 0.03833824396133423,
-      "learning_rate": 6.972222222222223e-05,
-      "loss": 0.0225,
       "step": 470
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 0.03554041311144829,
-      "learning_rate": 6.694444444444444e-05,
-      "loss": 0.0803,
       "step": 480
     },
     {
       "epoch": 2.7222222222222223,
-      "grad_norm": 0.04374659061431885,
-      "learning_rate": 6.416666666666668e-05,
-      "loss": 0.0225,
       "step": 490
     },
     {
       "epoch": 2.7777777777777777,
-      "grad_norm": 0.7893852591514587,
-      "learning_rate": 6.13888888888889e-05,
-      "loss": 0.0144,
       "step": 500
     },
     {
       "epoch": 2.7777777777777777,
-      "eval_accuracy": 0.751269035532995,
-      "eval_loss": 1.2833915948867798,
-      "eval_runtime": 5.7322,
-      "eval_samples_per_second": 68.734,
-      "eval_steps_per_second": 8.723,
       "step": 500
     },
     {
       "epoch": 2.8333333333333335,
-      "grad_norm": 0.06901850551366806,
-      "learning_rate": 5.8611111111111114e-05,
-      "loss": 0.0126,
       "step": 510
     },
     {
       "epoch": 2.888888888888889,
-      "grad_norm": 0.05946863815188408,
-      "learning_rate": 5.583333333333334e-05,
-      "loss": 0.0805,
       "step": 520
     },
     {
       "epoch": 2.9444444444444446,
-      "grad_norm": 6.05244779586792,
       "learning_rate": 5.305555555555556e-05,
-      "loss": 0.053,
       "step": 530
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.046690914779901505,
       "learning_rate": 5.027777777777778e-05,
-      "loss": 0.0187,
       "step": 540
     },
     {
       "epoch": 3.0555555555555554,
-      "grad_norm": 0.031222863122820854,
       "learning_rate": 4.75e-05,
-      "loss": 0.0284,
       "step": 550
     },
     {
       "epoch": 3.111111111111111,
-      "grad_norm": 0.029882928356528282,
       "learning_rate": 4.472222222222223e-05,
-      "loss": 0.0157,
       "step": 560
     },
     {
       "epoch": 3.1666666666666665,
-      "grad_norm": 0.02948245406150818,
       "learning_rate": 4.194444444444445e-05,
-      "loss": 0.0069,
       "step": 570
     },
     {
       "epoch": 3.2222222222222223,
-      "grad_norm": 0.02853226847946644,
       "learning_rate": 3.9166666666666665e-05,
-      "loss": 0.0257,
       "step": 580
     },
     {
       "epoch": 3.2777777777777777,
-      "grad_norm": 0.029870187863707542,
       "learning_rate": 3.638888888888889e-05,
-      "loss": 0.0093,
       "step": 590
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 0.028170829638838768,
       "learning_rate": 3.3611111111111116e-05,
-      "loss": 0.0062,
       "step": 600
     },
     {
       "epoch": 3.3333333333333335,
-      "eval_accuracy": 0.7563451776649747,
-      "eval_loss": 1.3673018217086792,
-      "eval_runtime": 5.8683,
-      "eval_samples_per_second": 67.14,
-      "eval_steps_per_second": 8.52,
       "step": 600
     },
     {
       "epoch": 3.388888888888889,
-      "grad_norm": 0.03230549395084381,
       "learning_rate": 3.0833333333333335e-05,
-      "loss": 0.0065,
       "step": 610
     },
     {
       "epoch": 3.4444444444444446,
-      "grad_norm": 0.027024297043681145,
       "learning_rate": 2.8055555555555557e-05,
-      "loss": 0.0356,
       "step": 620
     },
     {
       "epoch": 3.5,
-      "grad_norm": 0.028481144458055496,
       "learning_rate": 2.527777777777778e-05,
-      "loss": 0.0064,
       "step": 630
     },
     {
       "epoch": 3.5555555555555554,
-      "grad_norm": 0.0285650547593832,
       "learning_rate": 2.25e-05,
-      "loss": 0.0197,
       "step": 640
     },
     {
       "epoch": 3.611111111111111,
-      "grad_norm": 0.026111846789717674,
       "learning_rate": 1.9722222222222224e-05,
-      "loss": 0.0061,
       "step": 650
     },
     {
       "epoch": 3.6666666666666665,
-      "grad_norm": 0.0275073554366827,
       "learning_rate": 1.6944444444444446e-05,
-      "loss": 0.006,
       "step": 660
     },
     {
       "epoch": 3.7222222222222223,
-      "grad_norm": 0.025213921442627907,
       "learning_rate": 1.4166666666666668e-05,
-      "loss": 0.006,
       "step": 670
     },
     {
       "epoch": 3.7777777777777777,
-      "grad_norm": 0.9618052840232849,
       "learning_rate": 1.138888888888889e-05,
-      "loss": 0.0065,
       "step": 680
     },
     {
       "epoch": 3.8333333333333335,
-      "grad_norm": 0.035071808844804764,
       "learning_rate": 8.611111111111112e-06,
-      "loss": 0.0359,
       "step": 690
     },
     {
       "epoch": 3.888888888888889,
-      "grad_norm": 0.032459042966365814,
       "learning_rate": 5.833333333333334e-06,
-      "loss": 0.0257,
       "step": 700
     },
     {
       "epoch": 3.888888888888889,
-      "eval_accuracy": 0.766497461928934,
-      "eval_loss": 1.2925866842269897,
-      "eval_runtime": 5.7304,
-      "eval_samples_per_second": 68.756,
-      "eval_steps_per_second": 8.725,
       "step": 700
     },
     {
       "epoch": 3.9444444444444446,
-      "grad_norm": 0.025457823649048805,
       "learning_rate": 3.0555555555555556e-06,
-      "loss": 0.0058,
       "step": 710
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.03804958611726761,
       "learning_rate": 2.777777777777778e-07,
-      "loss": 0.0108,
       "step": 720
     },
     {
       "epoch": 4.0,
       "step": 720,
       "total_flos": 8.896239873264845e+17,
-      "train_loss": 0.14669639009775387,
-      "train_runtime": 706.4893,
-      "train_samples_per_second": 16.249,
-      "train_steps_per_second": 1.019
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.907917320728302,
   "best_model_checkpoint": "./vit-base-brain-xray/checkpoint-100",
   "epoch": 4.0,
   "eval_steps": 100,
   "log_history": [
     {
       "epoch": 0.05555555555555555,
+      "grad_norm": 5.699078559875488,
       "learning_rate": 0.00019722222222222225,
+      "loss": 1.2918,
       "step": 10
     },
     {
       "epoch": 0.1111111111111111,
+      "grad_norm": 3.1500043869018555,
       "learning_rate": 0.00019444444444444446,
+      "loss": 0.8867,
       "step": 20
     },
     {
       "epoch": 0.16666666666666666,
+      "grad_norm": 3.1283438205718994,
+      "learning_rate": 0.00019166666666666667,
+      "loss": 0.5707,
       "step": 30
     },
     {
       "epoch": 0.2222222222222222,
+      "grad_norm": 2.686929225921631,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 0.3967,
       "step": 40
     },
     {
       "epoch": 0.2777777777777778,
+      "grad_norm": 1.111426830291748,
+      "learning_rate": 0.00018611111111111112,
+      "loss": 0.3759,
       "step": 50
     },
     {
       "epoch": 0.3333333333333333,
+      "grad_norm": 2.6397788524627686,
+      "learning_rate": 0.00018333333333333334,
+      "loss": 0.2927,
       "step": 60
     },
     {
       "epoch": 0.3888888888888889,
+      "grad_norm": 0.6170921325683594,
+      "learning_rate": 0.00018055555555555557,
+      "loss": 0.2122,
       "step": 70
     },
     {
       "epoch": 0.4444444444444444,
+      "grad_norm": 0.33072641491889954,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 0.2795,
       "step": 80
     },
     {
       "epoch": 0.5,
+      "grad_norm": 1.4631454944610596,
+      "learning_rate": 0.000175,
+      "loss": 0.3315,
       "step": 90
     },
     {
       "epoch": 0.5555555555555556,
+      "grad_norm": 7.331964492797852,
+      "learning_rate": 0.00017222222222222224,
+      "loss": 0.2478,
       "step": 100
     },
     {
       "epoch": 0.5555555555555556,
+      "eval_accuracy": 0.6903553299492385,
+      "eval_loss": 0.907917320728302,
+      "eval_runtime": 5.7847,
+      "eval_samples_per_second": 68.111,
+      "eval_steps_per_second": 8.644,
       "step": 100
     },
     {
       "epoch": 0.6111111111111112,
+      "grad_norm": 3.3308780193328857,
+      "learning_rate": 0.00016944444444444445,
+      "loss": 0.4174,
       "step": 110
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 3.7708303928375244,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.2337,
       "step": 120
     },
     {
       "epoch": 0.7222222222222222,
+      "grad_norm": 0.6579460501670837,
+      "learning_rate": 0.0001638888888888889,
+      "loss": 0.271,
       "step": 130
     },
     {
       "epoch": 0.7777777777777778,
+      "grad_norm": 2.6412248611450195,
+      "learning_rate": 0.0001611111111111111,
+      "loss": 0.2476,
       "step": 140
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 4.0377197265625,
+      "learning_rate": 0.00015833333333333332,
+      "loss": 0.1787,
       "step": 150
     },
     {
       "epoch": 0.8888888888888888,
+      "grad_norm": 5.922617435455322,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.1848,
       "step": 160
     },
     {
       "epoch": 0.9444444444444444,
+      "grad_norm": 4.513651371002197,
+      "learning_rate": 0.00015277777777777777,
+      "loss": 0.2581,
       "step": 170
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.23064616322517395,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.1437,
       "step": 180
     },
     {
       "epoch": 1.0555555555555556,
+      "grad_norm": 2.2603862285614014,
+      "learning_rate": 0.00014722222222222223,
+      "loss": 0.1052,
       "step": 190
     },
     {
       "epoch": 1.1111111111111112,
+      "grad_norm": 4.710208892822266,
+      "learning_rate": 0.00014444444444444444,
+      "loss": 0.1499,
       "step": 200
     },
     {
       "epoch": 1.1111111111111112,
+      "eval_accuracy": 0.7182741116751269,
+      "eval_loss": 1.1542534828186035,
+      "eval_runtime": 5.8503,
+      "eval_samples_per_second": 67.347,
+      "eval_steps_per_second": 8.547,
       "step": 200
     },
     {
       "epoch": 1.1666666666666667,
+      "grad_norm": 0.15027037262916565,
+      "learning_rate": 0.00014166666666666668,
+      "loss": 0.0747,
       "step": 210
     },
     {
       "epoch": 1.2222222222222223,
+      "grad_norm": 0.3188658356666565,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.1555,
       "step": 220
     },
     {
       "epoch": 1.2777777777777777,
+      "grad_norm": 3.695791482925415,
+      "learning_rate": 0.00013611111111111113,
+      "loss": 0.1876,
       "step": 230
     },
     {
       "epoch": 1.3333333333333333,
+      "grad_norm": 2.009079694747925,
+      "learning_rate": 0.00013333333333333334,
+      "loss": 0.1054,
       "step": 240
     },
     {
       "epoch": 1.3888888888888888,
+      "grad_norm": 0.07869268208742142,
+      "learning_rate": 0.00013055555555555555,
+      "loss": 0.0381,
       "step": 250
     },
     {
       "epoch": 1.4444444444444444,
+      "grad_norm": 0.9898849725723267,
+      "learning_rate": 0.00012777777777777776,
+      "loss": 0.1144,
       "step": 260
     },
     {
       "epoch": 1.5,
+      "grad_norm": 0.509087085723877,
+      "learning_rate": 0.000125,
+      "loss": 0.1002,
       "step": 270
     },
     {
       "epoch": 1.5555555555555556,
+      "grad_norm": 0.08736218512058258,
+      "learning_rate": 0.00012222222222222224,
+      "loss": 0.1103,
       "step": 280
     },
     {
       "epoch": 1.6111111111111112,
+      "grad_norm": 0.24889719486236572,
+      "learning_rate": 0.00011944444444444445,
+      "loss": 0.0987,
       "step": 290
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 2.0384163856506348,
+      "learning_rate": 0.00011666666666666668,
+      "loss": 0.0872,
       "step": 300
     },
     {
       "epoch": 1.6666666666666665,
+      "eval_accuracy": 0.7614213197969543,
+      "eval_loss": 1.146877646446228,
+      "eval_runtime": 6.3643,
+      "eval_samples_per_second": 61.908,
+      "eval_steps_per_second": 7.856,
       "step": 300
     },
     {
       "epoch": 1.7222222222222223,
+      "grad_norm": 0.47840073704719543,
+      "learning_rate": 0.00011388888888888889,
+      "loss": 0.0468,
       "step": 310
     },
     {
       "epoch": 1.7777777777777777,
+      "grad_norm": 0.06918664276599884,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.0191,
       "step": 320
     },
     {
       "epoch": 1.8333333333333335,
+      "grad_norm": 0.7651189565658569,
+      "learning_rate": 0.00010833333333333333,
+      "loss": 0.1305,
       "step": 330
     },
     {
       "epoch": 1.8888888888888888,
+      "grad_norm": 1.8910560607910156,
+      "learning_rate": 0.00010555555555555557,
+      "loss": 0.0355,
       "step": 340
     },
     {
       "epoch": 1.9444444444444444,
+      "grad_norm": 0.07424870133399963,
+      "learning_rate": 0.00010277777777777778,
+      "loss": 0.0567,
       "step": 350
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.05715026333928108,
+      "learning_rate": 0.0001,
+      "loss": 0.0991,
       "step": 360
     },
     {
       "epoch": 2.0555555555555554,
+      "grad_norm": 2.061647415161133,
+      "learning_rate": 9.722222222222223e-05,
+      "loss": 0.0603,
       "step": 370
     },
     {
       "epoch": 2.111111111111111,
+      "grad_norm": 0.04806053638458252,
+      "learning_rate": 9.444444444444444e-05,
+      "loss": 0.0325,
       "step": 380
     },
     {
       "epoch": 2.1666666666666665,
+      "grad_norm": 0.05517473816871643,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 0.0301,
       "step": 390
     },
     {
       "epoch": 2.2222222222222223,
+      "grad_norm": 0.8571930527687073,
+      "learning_rate": 8.888888888888889e-05,
+      "loss": 0.0118,
       "step": 400
     },
     {
       "epoch": 2.2222222222222223,
+      "eval_accuracy": 0.7258883248730964,
+      "eval_loss": 1.2360663414001465,
+      "eval_runtime": 6.5101,
+      "eval_samples_per_second": 60.522,
+      "eval_steps_per_second": 7.68,
       "step": 400
     },
     {
       "epoch": 2.2777777777777777,
+      "grad_norm": 0.040004875510931015,
+      "learning_rate": 8.611111111111112e-05,
+      "loss": 0.0118,
       "step": 410
     },
     {
       "epoch": 2.3333333333333335,
+      "grad_norm": 7.572581768035889,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.0314,
       "step": 420
     },
     {
       "epoch": 2.388888888888889,
+      "grad_norm": 0.037391383200883865,
+      "learning_rate": 8.055555555555556e-05,
+      "loss": 0.0088,
       "step": 430
     },
     {
       "epoch": 2.4444444444444446,
+      "grad_norm": 0.034802764654159546,
+      "learning_rate": 7.777777777777778e-05,
+      "loss": 0.0147,
       "step": 440
     },
     {
       "epoch": 2.5,
+      "grad_norm": 0.06982697546482086,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0085,
       "step": 450
     },
     {
       "epoch": 2.5555555555555554,
+      "grad_norm": 0.03507501631975174,
+      "learning_rate": 7.222222222222222e-05,
+      "loss": 0.0087,
       "step": 460
     },
     {
       "epoch": 2.611111111111111,
+      "grad_norm": 4.626717567443848,
+      "learning_rate": 6.944444444444444e-05,
+      "loss": 0.0216,
       "step": 470
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 0.0349123477935791,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.05,
       "step": 480
     },
     {
       "epoch": 2.7222222222222223,
+      "grad_norm": 0.03614797443151474,
+      "learning_rate": 6.388888888888888e-05,
+      "loss": 0.0085,
       "step": 490
     },
     {
       "epoch": 2.7777777777777777,
+      "grad_norm": 0.06703199446201324,
+      "learning_rate": 6.111111111111112e-05,
+      "loss": 0.0077,
       "step": 500
     },
     {
       "epoch": 2.7777777777777777,
+      "eval_accuracy": 0.766497461928934,
+      "eval_loss": 1.2023228406906128,
+      "eval_runtime": 5.9054,
+      "eval_samples_per_second": 66.719,
+      "eval_steps_per_second": 8.467,
       "step": 500
     },
     {
       "epoch": 2.8333333333333335,
+      "grad_norm": 0.03837073966860771,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 0.007,
       "step": 510
     },
     {
       "epoch": 2.888888888888889,
+      "grad_norm": 0.031188365072011948,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.0072,
       "step": 520
     },
     {
       "epoch": 2.9444444444444446,
+      "grad_norm": 0.15879875421524048,
       "learning_rate": 5.305555555555556e-05,
+      "loss": 0.0145,
       "step": 530
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.051313698291778564,
       "learning_rate": 5.027777777777778e-05,
+      "loss": 0.0067,
       "step": 540
     },
     {
       "epoch": 3.0555555555555554,
+      "grad_norm": 0.027085309848189354,
       "learning_rate": 4.75e-05,
+      "loss": 0.0063,
       "step": 550
     },
     {
       "epoch": 3.111111111111111,
+      "grad_norm": 0.02693328447639942,
       "learning_rate": 4.472222222222223e-05,
+      "loss": 0.0066,
       "step": 560
     },
     {
       "epoch": 3.1666666666666665,
+      "grad_norm": 0.027860965579748154,
       "learning_rate": 4.194444444444445e-05,
+      "loss": 0.006,
       "step": 570
     },
     {
       "epoch": 3.2222222222222223,
+      "grad_norm": 0.025451989844441414,
       "learning_rate": 3.9166666666666665e-05,
+      "loss": 0.006,
       "step": 580
     },
     {
       "epoch": 3.2777777777777777,
+      "grad_norm": 0.02524595521390438,
       "learning_rate": 3.638888888888889e-05,
+      "loss": 0.0059,
       "step": 590
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 0.02702181413769722,
       "learning_rate": 3.3611111111111116e-05,
+      "loss": 0.0057,
       "step": 600
     },
     {
       "epoch": 3.3333333333333335,
+      "eval_accuracy": 0.7639593908629442,
+      "eval_loss": 1.2470098733901978,
+      "eval_runtime": 5.9411,
+      "eval_samples_per_second": 66.318,
+      "eval_steps_per_second": 8.416,
       "step": 600
     },
     {
       "epoch": 3.388888888888889,
+      "grad_norm": 0.027771031484007835,
       "learning_rate": 3.0833333333333335e-05,
+      "loss": 0.0057,
       "step": 610
     },
     {
       "epoch": 3.4444444444444446,
+      "grad_norm": 0.02504831738770008,
       "learning_rate": 2.8055555555555557e-05,
+      "loss": 0.0313,
       "step": 620
     },
     {
       "epoch": 3.5,
+      "grad_norm": 0.027147900313138962,
       "learning_rate": 2.527777777777778e-05,
+      "loss": 0.0056,
       "step": 630
     },
     {
       "epoch": 3.5555555555555554,
+      "grad_norm": 0.026741115376353264,
       "learning_rate": 2.25e-05,
+      "loss": 0.0059,
       "step": 640
     },
     {
       "epoch": 3.611111111111111,
+      "grad_norm": 0.05946130305528641,
       "learning_rate": 1.9722222222222224e-05,
+      "loss": 0.0055,
       "step": 650
     },
     {
       "epoch": 3.6666666666666665,
+      "grad_norm": 0.025428051128983498,
       "learning_rate": 1.6944444444444446e-05,
+      "loss": 0.0054,
       "step": 660
     },
     {
       "epoch": 3.7222222222222223,
+      "grad_norm": 0.023423248901963234,
       "learning_rate": 1.4166666666666668e-05,
+      "loss": 0.0053,
       "step": 670
     },
     {
       "epoch": 3.7777777777777777,
+      "grad_norm": 0.023936165496706963,
       "learning_rate": 1.138888888888889e-05,
+      "loss": 0.0057,
       "step": 680
     },
     {
       "epoch": 3.8333333333333335,
+      "grad_norm": 0.023328222334384918,
       "learning_rate": 8.611111111111112e-06,
+      "loss": 0.0052,
       "step": 690
     },
     {
       "epoch": 3.888888888888889,
+      "grad_norm": 0.025306882336735725,
       "learning_rate": 5.833333333333334e-06,
+      "loss": 0.0053,
       "step": 700
     },
     {
       "epoch": 3.888888888888889,
+      "eval_accuracy": 0.7766497461928934,
+      "eval_loss": 1.209647297859192,
+      "eval_runtime": 7.4912,
+      "eval_samples_per_second": 52.595,
+      "eval_steps_per_second": 6.675,
       "step": 700
     },
     {
       "epoch": 3.9444444444444446,
+      "grad_norm": 0.023267222568392754,
       "learning_rate": 3.0555555555555556e-06,
+      "loss": 0.0057,
       "step": 710
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.03729303553700447,
       "learning_rate": 2.777777777777778e-07,
+      "loss": 0.0057,
       "step": 720
     },
     {
       "epoch": 4.0,
       "step": 720,
       "total_flos": 8.896239873264845e+17,
+      "train_loss": 0.12508326765770714,
+      "train_runtime": 729.602,
+      "train_samples_per_second": 15.735,
+      "train_steps_per_second": 0.987
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e85701c3785f8f1bd6b77fa9240d0634e81af7e955718efcc7ad98aaae9d642
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa9c86430e116816f9bd3e4f75e40ee3d211f6fccb42b21939614223c8b5b485
 size 4984