Training in progress epoch 0

Files changed (4) hide show

README.md CHANGED Viewed

@@ -15,9 +15,9 @@ probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Train Loss: 2.0076
-- Validation Loss: 1.6043
-- Epoch: 1
 ## Model description
@@ -36,20 +36,19 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- optimizer: {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 5.6e-05, 'decay_steps': 13806, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}
 - training_precision: mixed_float16
 ### Training results
 | Train Loss | Validation Loss | Epoch |
 |:----------:|:---------------:|:-----:|
-| 3.3038     | 1.7895          | 0     |
-| 2.0076     | 1.6043          | 1     |
 ### Framework versions
-- Transformers 4.31.0
 - TensorFlow 2.12.0
 - Datasets 2.14.4
 - Tokenizers 0.13.3

 This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Train Loss: 1.8179
+- Validation Loss: 1.3050
+- Epoch: 0
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- optimizer: {'name': 'Adam', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': True, 'is_legacy_optimizer': False, 'learning_rate': 0.001, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-07, 'amsgrad': False}
 - training_precision: mixed_float16
 ### Training results
 | Train Loss | Validation Loss | Epoch |
 |:----------:|:---------------:|:-----:|
+| 1.8179     | 1.3050          | 0     |
 ### Framework versions
+- Transformers 4.32.0
 - TensorFlow 2.12.0
 - Datasets 2.14.4
 - Tokenizers 0.13.3

config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "MT5ForConditionalGeneration"
   ],
   "d_ff": 1024,
   "d_kv": 64,
   "d_model": 512,
@@ -24,7 +25,7 @@
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "tokenizer_class": "T5Tokenizer",
-  "transformers_version": "4.31.0",
   "use_cache": true,
   "vocab_size": 250112
 }

   "architectures": [
     "MT5ForConditionalGeneration"
   ],
+  "classifier_dropout": 0.0,
   "d_ff": 1024,
   "d_kv": 64,
   "d_model": 512,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "tokenizer_class": "T5Tokenizer",
+  "transformers_version": "4.32.0",
   "use_cache": true,
   "vocab_size": 250112
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.31.0"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.32.0"
 }

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c28691f23550d3ebbd6e5be7ff69f578c1f76948ab52149bc28cb049c2e3ff4
 size 2225556280

 version https://git-lfs.github.com/spec/v1
+oid sha256:e197ca46a314076ce4512e4c990229f4f877bdda75b9bd168e5bc41f8a5f1dd1
 size 2225556280