xsestech
/

skilltext

@@ -1,9 +1,11 @@
 ---
-base_model: ai-forever/ruT5-base
 tags:
 - generated_from_trainer
 metrics:
 - rouge
 model-index:
 - name: skilltext
   results: []
@@ -14,14 +16,15 @@ should probably proofread and complete it, then remove this comment. -->
 # skilltext
-This model is a fine-tuned version of [ai-forever/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0577
-- Rouge1: 30.9205
-- Rouge2: 11.9258
-- Rougel: 26.6497
-- Rougelsum: 26.4407
-- Gen Len: 18.6875
 ## Model description
@@ -41,30 +44,55 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 2
-- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 20
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch   | Step | Validation Loss | Rouge1  | Rouge2  | Rougel  | Rougelsum | Gen Len |
-|:-------------:|:-------:|:----:|:---------------:|:-------:|:-------:|:-------:|:---------:|:-------:|
-| No log        | 1.6129  | 50   | 1.8405          | 16.798  | 2.7473  | 15.7599 | 15.6863   | 19.0    |
-| No log        | 3.2258  | 100  | 1.4606          | 19.3942 | 7.4911  | 18.9911 | 18.8407   | 18.875  |
-| No log        | 4.8387  | 150  | 1.3583          | 27.0146 | 13.8805 | 24.3188 | 24.2122   | 18.6875 |
-| No log        | 6.4516  | 200  | 1.2490          | 32.855  | 15.9819 | 31.0776 | 30.8624   | 18.75   |
-| No log        | 8.0645  | 250  | 1.1590          | 30.3762 | 11.8253 | 27.5559 | 27.2332   | 18.5625 |
-| No log        | 9.6774  | 300  | 1.1469          | 37.2275 | 17.107  | 33.4177 | 33.3688   | 18.4375 |
-| No log        | 11.2903 | 350  | 1.1364          | 34.3596 | 15.6845 | 30.8838 | 31.0842   | 18.625  |
-| No log        | 12.9032 | 400  | 1.0927          | 34.9322 | 15.8027 | 30.2917 | 30.1379   | 18.6875 |
-| No log        | 14.5161 | 450  | 1.0672          | 32.2753 | 15.7727 | 28.1883 | 27.8978   | 18.6875 |
-| 1.8948        | 16.1290 | 500  | 1.0721          | 37.6573 | 15.6507 | 32.7817 | 32.742    | 18.5625 |
-| 1.8948        | 17.7419 | 550  | 1.0692          | 34.958  | 15.3422 | 30.4656 | 30.3306   | 18.5    |
-| 1.8948        | 19.3548 | 600  | 1.0577          | 30.9205 | 11.9258 | 26.6497 | 26.4407   | 18.6875 |
 ### Framework versions

 ---
+license: apache-2.0
+base_model: google/mt5-base
 tags:
 - generated_from_trainer
 metrics:
 - rouge
+- bleu
 model-index:
 - name: skilltext
   results: []
 # skilltext
+This model is a fine-tuned version of [google/mt5-base](https://huggingface.co/google/mt5-base) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: nan
+- Rouge1: 0.431
+- Rouge2: 0.0
+- Rougel: 0.431
+- Rougelsum: 0.431
+- Bleu: 0.0322
+- Gen Len: 11.75
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 1
+- eval_batch_size: 1
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 30
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch   | Step | Validation Loss | Rouge1 | Rouge2 | Rougel | Rougelsum | Bleu   | Gen Len |
+|:-------------:|:-------:|:----:|:---------------:|:------:|:------:|:------:|:---------:|:------:|:-------:|
+| No log        | 0.8065  | 50   | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 1.6129  | 100  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 2.4194  | 150  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 3.2258  | 200  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 4.0323  | 250  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 4.8387  | 300  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 5.6452  | 350  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 6.4516  | 400  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| No log        | 7.2581  | 450  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 8.0645  | 500  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 8.8710  | 550  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 9.6774  | 600  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 10.4839 | 650  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 11.2903 | 700  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 12.0968 | 750  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 12.9032 | 800  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 13.7097 | 850  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 14.5161 | 900  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 15.3226 | 950  | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 16.1290 | 1000 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 16.9355 | 1050 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 17.7419 | 1100 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 18.5484 | 1150 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 19.3548 | 1200 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 20.1613 | 1250 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 20.9677 | 1300 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 21.7742 | 1350 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 22.5806 | 1400 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 23.3871 | 1450 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 24.1935 | 1500 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 25.0    | 1550 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 25.8065 | 1600 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 26.6129 | 1650 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 27.4194 | 1700 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 28.2258 | 1750 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 29.0323 | 1800 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
+| 0.0           | 29.8387 | 1850 | nan             | 0.431  | 0.0    | 0.431  | 0.431     | 0.0322 | 11.75   |
 ### Framework versions

generation_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "decoder_start_token_id": 0,
-  "eos_token_id": 2,
   "pad_token_id": 0,
   "transformers_version": "4.40.0"
 }

 {
   "decoder_start_token_id": 0,
+  "eos_token_id": 1,
   "pad_token_id": 0,
   "transformers_version": "4.40.0"
 }