Initial commit

Browse files

Files changed (15) hide show

.gitattributes +4 -0
README.md +130 -0
added_tokens.json +3 -0
all_results.json +64 -0
config.json +38 -0
generation_config.json +9 -0
model.safetensors +3 -0
runs/Nov01_04-12-54_MARVIN-PC/events.out.tfevents.1698808405.MARVIN-PC.20152.0 +3 -0
runs/Nov01_04-12-54_MARVIN-PC/events.out.tfevents.1698903492.MARVIN-PC.20152.1 +3 -0
special_tokens_map.json +8 -0
spiece.model +3 -0
tokenizer.json +3 -0
tokenizer_config.json +111 -0
trainer_state.json +768 -0
training_args.bin +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,4 @@

+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+runs/** filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,130 @@

+---
+language:
+  - de
+tags:
+  - question-generation
+  - german
+  - text2text-generation
+  - generated_from_trainer
+datasets:
+  - lmqg/qg_dequad
+metrics:
+  - bleu4
+  - f1
+  - rouge
+  - exact_match
+model-index:
+  - name: german-jeopardy-longt5-large-128
+    results:
+      - task:
+          name: Sequence-to-sequence Language Modeling
+          type: text2text-generation
+        dataset:
+          name: lmqg/qg_dequad
+          type: default
+          args: default
+        metrics:
+          - name: BLEU-4
+            type: bleu4
+            value: 6.99
+          - name: F1
+            type: f1
+            value: 28.39
+          - name: ROUGE-1
+            type: rouge1
+            value: 28.96
+          - name: ROUGE-2
+            type: rouge2
+            value: 11.91
+          - name: ROUGE-L
+            type: rougel
+            value: 27.92
+          - name: ROUGE-Lsum
+            type: rougelsum
+            value: 27.91
+          - name: Exact Match
+            type: exact_match
+            value: 0.95
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# german-jeopardy-longt5-large-128
+This model is a fine-tuned version of [google/long-t5-tglobal-large](https://huggingface.co/google/long-t5-tglobal-large) on the [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad) dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.6149
+- Brevity Penalty: 0.9386
+- System Length: 19554
+- Reference Length: 20793
+- ROUGE-1: 28.96
+- ROUGE-2: 11.91
+- ROUGE-L: 27.92
+- ROUGE-Lsum: 27.91
+- Exact Match: 0.95
+- BLEU: 6.99
+- F1: 28.39
+## Model description
+See [google/long-t5-tglobal-large](https://huggingface.co/google/long-t5-tglobal-large) for more information about the
+model architecture.
+The model was trained on a single NVIDIA RTX 3090 GPU with 24GB of VRAM.
+## Intended uses & limitations
+This model can be used for question generation on German text.
+## Training and evaluation data
+See [lmqg/qg_dequad](https://huggingface.co/datasets/lmqg/qg_dequad).
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 7
+- gradient_accumulation_steps: 64
+- total_train_batch_size: 128
+- optimizer: Adafactor
+- lr_scheduler_type: constant
+- num_epochs: 20
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Counts 1 | Counts 2 | Counts 3 | Counts 4 | Totals 1 | Totals 2 | Totals 3 | Totals 4 | Precisions 1 | Precisions 2 | Precisions 3 | Precisions 4 | Brevity Penalty | System Length | Reference Length | ROUGE-1 | ROUGE-2 | ROUGE-L | ROUGE-Lsum | Exact Match |  BLEU   | Mean Generated Length |   F1   |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:--------:|:------------:|:------------:|:------------:|:------------:|:---------------:|:-------------:|:----------------:|:-------:|:-------:|:-------:|:----------:|:-----------:|:-------:|:---------------------:|:------:|
+|    7.5882     | 0.99  |  72  |     5.6823      |   3993   |   105    |    0     |    0     |  14790   |  12586   |  10382   |   8178   |    26.998    |    0.8343    |    0.0048    |    0.0031    |     0.6461      |     14790     |      21250       | 0.1101  | 0.0077  | 0.1078  |   0.1076   |     0.0     | 0.0872  |        9.7105         | 0.1155 |
+|    5.2903     | 1.99  | 145  |     4.8721      |   3827   |   229    |    32    |    0     |  18894   |  16690   |  14486   |  12282   |   20.2551    |    1.3721    |    0.2209    |    0.0041    |     0.8828      |     18894     |      21250       | 0.0924  |  0.015  |  0.091  |   0.0909   |     0.0     |  0.351  |        16.7005        | 0.0964 |
+|    4.6636     |  3.0  | 218  |     4.2806      |   3638   |   174    |    21    |    0     |  15268   |  13064   |  10860   |   8656   |   23.8276    |    1.3319    |    0.1934    |    0.0058    |     0.6758      |     15268     |      21250       | 0.0884  |  0.012  | 0.0876  |   0.0874   |     0.0     | 0.2933  |        8.9197         | 0.0925 |
+|    4.2229     |  4.0  | 291  |     3.9210      |   4274   |   240    |    24    |    0     |  29308   |  27104   |  24900   |  22696   |    14.583    |    0.8855    |    0.0964    |    0.0022    |       1.0       |     29308     |      21250       | 0.0894  | 0.0109  | 0.0849  |   0.0849   |     0.0     | 0.2288  |        24.7015        | 0.1023 |
+|    3.9434     | 4.99  | 363  |     3.6907      |   3652   |   218    |    35    |    1     |  16442   |  14238   |  12034   |   9830   |   22.2114    |    1.5311    |    0.2908    |    0.0102    |     0.7465      |     16442     |      21250       | 0.0856  | 0.0141  | 0.0843  |   0.0842   |     0.0     | 0.4204  |        12.3049        | 0.0898 |
+|    3.6152     | 5.99  | 436  |     3.4603      |   4103   |   341    |    77    |    11    |  20581   |  18377   |  16173   |  13969   |   19.9359    |    1.8556    |    0.4761    |    0.0787    |      0.968      |     20581     |      21250       |  0.107  |  0.019  | 0.1023  |   0.1024   |     0.0     | 1.0505  |        14.3607        | 0.112  |
+|    3.3814     |  7.0  | 509  |     3.2883      |   4342   |   675    |   218    |    43    |  17763   |  15559   |  13355   |  11151   |   24.4441    |    4.3383    |    1.6323    |    0.3856    |     0.8218      |     17763     |      21250       | 0.1264  | 0.0353  | 0.1234  |   0.1234   |   0.0005    | 2.3489  |        10.2418        | 0.1308 |
+|    3.1711     |  8.0  | 582  |     3.0988      |   4820   |   856    |   246    |    44    |  19759   |  17555   |  15351   |  13147   |   24.3939    |    4.8761    |    1.6025    |    0.3347    |     0.9273      |     19759     |      21250       | 0.1503  | 0.0465  | 0.1455  |   0.1457   |   0.0005    | 2.6207  |        14.3249        | 0.1547 |
+|    3.0147     | 8.99  | 654  |     2.9540      |   5167   |   1066   |   321    |    76    |  18725   |  16521   |  14317   |  12113   |   27.5941    |    6.4524    |    2.2421    |    0.6274    |     0.8739      |     18725     |      21250       | 0.1773  | 0.0588  | 0.1721  |   0.1721   |   0.0018    | 3.4764  |        14.3067        | 0.1816 |
+|    2.7829     | 9.99  | 727  |     2.8288      |   5625   |   1267   |   420    |   124    |  17327   |  15123   |  12919   |  10715   |   32.4638    |    8.378     |    3.251     |    1.1573    |     0.7974      |     17327     |      21250       | 0.2127  | 0.0741  | 0.2067  |   0.2065   |   0.0045    | 4.5099  |        12.9741        | 0.2159 |
+|    2.6093     | 10.99 | 800  |     2.7177      |   6005   |   1469   |   528    |   181    |  18625   |  16421   |  14217   |  12013   |   32.2416    |    8.9459    |    3.7139    |    1.5067    |     0.8685      |     18625     |      21250       |  0.229  | 0.0827  | 0.2215  |   0.2213   |   0.0064    | 5.5051  |        14.4791        | 0.231  |
+|     2.453     | 12.0  | 873  |     2.5914      |   6396   |   1744   |   664    |   246    |  18307   |  16103   |  13899   |  11695   |   34.9375    |   10.8303    |    4.7773    |    2.1035    |     0.8515      |     18307     |      21250       | 0.2553  | 0.0998  | 0.2479  |   0.2478   |   0.0059    | 6.6865  |        13.7142        | 0.2565 |
+|    2.3329     | 12.99 | 945  |     2.4993      |   6673   |   1888   |   741    |   291    |  18451   |  16247   |  14043   |  11839   |   36.1661    |   11.6206    |    5.2767    |    2.458     |     0.8592      |     18451     |      21250       | 0.2747  | 0.1114  | 0.2652  |   0.2652   |   0.0091    |  7.383  |        14.1751        | 0.2749 |
+|    2.1663     | 13.99 | 1018 |     2.4196      |   6953   |   2052   |   834    |   337    |  18531   |  16327   |  14123   |  11919   |   37.5209    |   12.5681    |    5.9053    |    2.8274    |     0.8635      |     18531     |      21250       | 0.2886  | 0.1215  | 0.2773  |   0.277    |   0.0082    | 8.1343  |        14.6783        | 0.2889 |
+|    2.0422     | 14.99 | 1091 |     2.3703      |   6968   |   2089   |   862    |   365    |  17984   |  15780   |  13576   |  11372   |   38.7456    |   13.2383    |    6.3494    |    3.2096    |     0.8339      |     17984     |      21250       | 0.2961  | 0.1268  | 0.2858  |   0.2857   |   0.0113    | 8.4322  |        13.6987        | 0.2951 |
+|    1.9245     | 16.0  | 1164 |     2.3217      |   7500   |   2353   |   999    |   446    |  19017   |  16813   |  14609   |  12405   |   39.4384    |   13.9951    |    6.8383    |    3.5953    |     0.8892      |     19017     |      21250       | 0.3149  | 0.1407  | 0.3017  |   0.3017   |   0.0132    | 9.5973  |         14.77         | 0.314  |
+|    1.8216     | 17.0  | 1237 |     2.2705      |   7444   |   2357   |   1044   |   488    |  18219   |  16015   |  13811   |  11607   |   40.8584    |   14.7175    |    7.5592    |    4.2044    |     0.8467      |     18219     |      21250       | 0.3201  | 0.1437  | 0.3081  |   0.3077   |   0.0132    | 9.9557  |        13.8031        | 0.3181 |
+|    1.7503     | 17.99 | 1309 |     2.2386      |   7571   |   2487   |   1114   |   515    |  18275   |  16071   |  13867   |  11663   |   41.4282    |   15.4751    |    8.0335    |    4.4157    |     0.8498      |     18275     |      21250       | 0.3289  | 0.1512  | 0.3153  |   0.3151   |   0.0145    | 10.4354 |        13.9106        | 0.3265 |
+|    1.6342     | 18.99 | 1382 |     2.2183      |   7697   |   2536   |   1155   |   537    |  18129   |  15925   |  13721   |  11517   |   42.4568    |   15.9246    |    8.4178    |    4.6627    |     0.8418      |     18129     |      21250       | 0.3342  | 0.1559  | 0.3224  |   0.3222   |   0.0177    | 10.7447 |        13.8494        | 0.3313 |
+|    1.5474     | 19.79 | 1440 |     2.1956      |   7879   |   2632   |   1187   |   570    |  18815   |  16611   |  14407   |  12203   |   41.8762    |   15.8449    |    8.2391    |    4.671     |     0.8786      |     18815     |      21250       | 0.3398  | 0.1607  |  0.326  |   0.326    |   0.0177    | 11.1066 |        14.5136        | 0.3375 |
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.1.0
+- Datasets 2.12.0
+- Tokenizers 0.13.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<hl>": 32100
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+    "epoch": 19.79,
+    "eval_bleu": 11.1066,
+    "eval_bp": 0.8786,
+    "eval_counts_1": 7879,
+    "eval_counts_2": 2632,
+    "eval_counts_3": 1187,
+    "eval_counts_4": 570,
+    "eval_exact_match": 0.0177,
+    "eval_f1": 0.3375,
+    "eval_gen_len": 14.5136,
+    "eval_loss": 2.1956045627593994,
+    "eval_precisions_1": 41.8762,
+    "eval_precisions_2": 15.8449,
+    "eval_precisions_3": 8.2391,
+    "eval_precisions_4": 4.671,
+    "eval_ref_len": 21250,
+    "eval_rouge1": 0.3398,
+    "eval_rouge2": 0.1607,
+    "eval_rougeL": 0.326,
+    "eval_rougeLsum": 0.326,
+    "eval_runtime": 1400.2837,
+    "eval_samples": 2204,
+    "eval_samples_per_second": 1.574,
+    "eval_steps_per_second": 0.787,
+    "eval_sys_len": 18815,
+    "eval_totals_1": 18815,
+    "eval_totals_2": 16611,
+    "eval_totals_3": 14407,
+    "eval_totals_4": 12203,
+    "predict_bleu": 6.9226,
+    "predict_bp": 0.9387,
+    "predict_counts_1": 6856,
+    "predict_counts_2": 1773,
+    "predict_counts_3": 669,
+    "predict_counts_4": 242,
+    "predict_exact_match": 0.0091,
+    "predict_f1": 0.2809,
+    "predict_gen_len": 15.6565,
+    "predict_loss": 2.6732192039489746,
+    "predict_precisions_1": 35.0583,
+    "predict_precisions_2": 10.2178,
+    "predict_precisions_3": 4.4164,
+    "predict_precisions_4": 1.8696,
+    "predict_ref_len": 20793,
+    "predict_rouge1": 0.2866,
+    "predict_rouge2": 0.1177,
+    "predict_rougeL": 0.2764,
+    "predict_rougeLsum": 0.2763,
+    "predict_runtime": 1437.4985,
+    "predict_samples": 2204,
+    "predict_samples_per_second": 1.533,
+    "predict_steps_per_second": 0.767,
+    "predict_sys_len": 19556,
+    "predict_totals_1": 19556,
+    "predict_totals_2": 17352,
+    "predict_totals_3": 15148,
+    "predict_totals_4": 12944,
+    "train_loss": 3.111723126305474,
+    "train_runtime": 93678.1212,
+    "train_samples": 9314,
+    "train_samples_per_second": 1.989,
+    "train_steps_per_second": 0.015
+}

config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_name_or_path": "google/long-t5-tglobal-large",
+  "architectures": [
+    "LongT5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "encoder_attention_type": "transient-global",
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "global_block_size": 16,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "length_penalty": 0.0,
+  "local_radius": 127,
+  "max_length": 64,
+  "model_type": "longt5",
+  "n_positions": 4096,
+  "num_beams": 4,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "length_penalty": 0.0,
+  "max_length": 64,
+  "num_beams": 4,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1b1f5da2797394d53d7d87723c300d47d3068f0b6129303e18e460731f1923d
+size 3132774536

runs/Nov01_04-12-54_MARVIN-PC/events.out.tfevents.1698808405.MARVIN-PC.20152.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b54dd72016b81d2a66ce608c0656b37fb439549a68195d08641510e72bfcd1e9
+size 37390

runs/Nov01_04-12-54_MARVIN-PC/events.out.tfevents.1698903492.MARVIN-PC.20152.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70cc6d322607fa5352fdc88b47687e1fec5665efd97092d7aa2adad237f20b47
+size 1550

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "additional_special_tokens": [
+    "<hl>"
+  ],
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7849fbc2663e2243b74c6bec05a83d501e82817586c56ed636778f2357a8f0c4
+size 2422538

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,111 @@

+{
+  "additional_special_tokens": [
+    "<extra_id_0>",
+    "<extra_id_1>",
+    "<extra_id_2>",
+    "<extra_id_3>",
+    "<extra_id_4>",
+    "<extra_id_5>",
+    "<extra_id_6>",
+    "<extra_id_7>",
+    "<extra_id_8>",
+    "<extra_id_9>",
+    "<extra_id_10>",
+    "<extra_id_11>",
+    "<extra_id_12>",
+    "<extra_id_13>",
+    "<extra_id_14>",
+    "<extra_id_15>",
+    "<extra_id_16>",
+    "<extra_id_17>",
+    "<extra_id_18>",
+    "<extra_id_19>",
+    "<extra_id_20>",
+    "<extra_id_21>",
+    "<extra_id_22>",
+    "<extra_id_23>",
+    "<extra_id_24>",
+    "<extra_id_25>",
+    "<extra_id_26>",
+    "<extra_id_27>",
+    "<extra_id_28>",
+    "<extra_id_29>",
+    "<extra_id_30>",
+    "<extra_id_31>",
+    "<extra_id_32>",
+    "<extra_id_33>",
+    "<extra_id_34>",
+    "<extra_id_35>",
+    "<extra_id_36>",
+    "<extra_id_37>",
+    "<extra_id_38>",
+    "<extra_id_39>",
+    "<extra_id_40>",
+    "<extra_id_41>",
+    "<extra_id_42>",
+    "<extra_id_43>",
+    "<extra_id_44>",
+    "<extra_id_45>",
+    "<extra_id_46>",
+    "<extra_id_47>",
+    "<extra_id_48>",
+    "<extra_id_49>",
+    "<extra_id_50>",
+    "<extra_id_51>",
+    "<extra_id_52>",
+    "<extra_id_53>",
+    "<extra_id_54>",
+    "<extra_id_55>",
+    "<extra_id_56>",
+    "<extra_id_57>",
+    "<extra_id_58>",
+    "<extra_id_59>",
+    "<extra_id_60>",
+    "<extra_id_61>",
+    "<extra_id_62>",
+    "<extra_id_63>",
+    "<extra_id_64>",
+    "<extra_id_65>",
+    "<extra_id_66>",
+    "<extra_id_67>",
+    "<extra_id_68>",
+    "<extra_id_69>",
+    "<extra_id_70>",
+    "<extra_id_71>",
+    "<extra_id_72>",
+    "<extra_id_73>",
+    "<extra_id_74>",
+    "<extra_id_75>",
+    "<extra_id_76>",
+    "<extra_id_77>",
+    "<extra_id_78>",
+    "<extra_id_79>",
+    "<extra_id_80>",
+    "<extra_id_81>",
+    "<extra_id_82>",
+    "<extra_id_83>",
+    "<extra_id_84>",
+    "<extra_id_85>",
+    "<extra_id_86>",
+    "<extra_id_87>",
+    "<extra_id_88>",
+    "<extra_id_89>",
+    "<extra_id_90>",
+    "<extra_id_91>",
+    "<extra_id_92>",
+    "<extra_id_93>",
+    "<extra_id_94>",
+    "<extra_id_95>",
+    "<extra_id_96>",
+    "<extra_id_97>",
+    "<extra_id_98>",
+    "<extra_id_99>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 100,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,768 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.789564097058193,
+  "eval_steps": 500,
+  "global_step": 1440,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0001,
+      "loss": 7.5882,
+      "step": 72
+    },
+    {
+      "epoch": 0.99,
+      "eval_bleu": 0.0872,
+      "eval_bp": 0.6461,
+      "eval_counts_1": 3993,
+      "eval_counts_2": 105,
+      "eval_counts_3": 0,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.1155,
+      "eval_gen_len": 9.7105,
+      "eval_loss": 5.682333469390869,
+      "eval_precisions_1": 26.998,
+      "eval_precisions_2": 0.8343,
+      "eval_precisions_3": 0.0048,
+      "eval_precisions_4": 0.0031,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1101,
+      "eval_rouge2": 0.0077,
+      "eval_rougeL": 0.1078,
+      "eval_rougeLsum": 0.1076,
+      "eval_runtime": 1951.3051,
+      "eval_samples_per_second": 1.13,
+      "eval_steps_per_second": 0.565,
+      "eval_sys_len": 14790,
+      "eval_totals_1": 14790,
+      "eval_totals_2": 12586,
+      "eval_totals_3": 10382,
+      "eval_totals_4": 8178,
+      "step": 72
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0001,
+      "loss": 5.2903,
+      "step": 145
+    },
+    {
+      "epoch": 1.99,
+      "eval_bleu": 0.351,
+      "eval_bp": 0.8828,
+      "eval_counts_1": 3827,
+      "eval_counts_2": 229,
+      "eval_counts_3": 32,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0964,
+      "eval_gen_len": 16.7005,
+      "eval_loss": 4.872079372406006,
+      "eval_precisions_1": 20.2551,
+      "eval_precisions_2": 1.3721,
+      "eval_precisions_3": 0.2209,
+      "eval_precisions_4": 0.0041,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0924,
+      "eval_rouge2": 0.015,
+      "eval_rougeL": 0.091,
+      "eval_rougeLsum": 0.0909,
+      "eval_runtime": 3438.1674,
+      "eval_samples_per_second": 0.641,
+      "eval_steps_per_second": 0.321,
+      "eval_sys_len": 18894,
+      "eval_totals_1": 18894,
+      "eval_totals_2": 16690,
+      "eval_totals_3": 14486,
+      "eval_totals_4": 12282,
+      "step": 145
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0001,
+      "loss": 4.6636,
+      "step": 218
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.2933,
+      "eval_bp": 0.6758,
+      "eval_counts_1": 3638,
+      "eval_counts_2": 174,
+      "eval_counts_3": 21,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0925,
+      "eval_gen_len": 8.9197,
+      "eval_loss": 4.280586242675781,
+      "eval_precisions_1": 23.8276,
+      "eval_precisions_2": 1.3319,
+      "eval_precisions_3": 0.1934,
+      "eval_precisions_4": 0.0058,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0884,
+      "eval_rouge2": 0.012,
+      "eval_rougeL": 0.0876,
+      "eval_rougeLsum": 0.0874,
+      "eval_runtime": 2326.5895,
+      "eval_samples_per_second": 0.947,
+      "eval_steps_per_second": 0.474,
+      "eval_sys_len": 15268,
+      "eval_totals_1": 15268,
+      "eval_totals_2": 13064,
+      "eval_totals_3": 10860,
+      "eval_totals_4": 8656,
+      "step": 218
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.0001,
+      "loss": 4.2229,
+      "step": 291
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.2288,
+      "eval_bp": 1.0,
+      "eval_counts_1": 4274,
+      "eval_counts_2": 240,
+      "eval_counts_3": 24,
+      "eval_counts_4": 0,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.1023,
+      "eval_gen_len": 24.7015,
+      "eval_loss": 3.9210410118103027,
+      "eval_precisions_1": 14.583,
+      "eval_precisions_2": 0.8855,
+      "eval_precisions_3": 0.0964,
+      "eval_precisions_4": 0.0022,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0894,
+      "eval_rouge2": 0.0109,
+      "eval_rougeL": 0.0849,
+      "eval_rougeLsum": 0.0849,
+      "eval_runtime": 2975.0462,
+      "eval_samples_per_second": 0.741,
+      "eval_steps_per_second": 0.37,
+      "eval_sys_len": 29308,
+      "eval_totals_1": 29308,
+      "eval_totals_2": 27104,
+      "eval_totals_3": 24900,
+      "eval_totals_4": 22696,
+      "step": 291
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 0.0001,
+      "loss": 3.9434,
+      "step": 363
+    },
+    {
+      "epoch": 4.99,
+      "eval_bleu": 0.4204,
+      "eval_bp": 0.7465,
+      "eval_counts_1": 3652,
+      "eval_counts_2": 218,
+      "eval_counts_3": 35,
+      "eval_counts_4": 1,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.0898,
+      "eval_gen_len": 12.3049,
+      "eval_loss": 3.690653085708618,
+      "eval_precisions_1": 22.2114,
+      "eval_precisions_2": 1.5311,
+      "eval_precisions_3": 0.2908,
+      "eval_precisions_4": 0.0102,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.0856,
+      "eval_rouge2": 0.0141,
+      "eval_rougeL": 0.0843,
+      "eval_rougeLsum": 0.0842,
+      "eval_runtime": 3036.8902,
+      "eval_samples_per_second": 0.726,
+      "eval_steps_per_second": 0.363,
+      "eval_sys_len": 16442,
+      "eval_totals_1": 16442,
+      "eval_totals_2": 14238,
+      "eval_totals_3": 12034,
+      "eval_totals_4": 9830,
+      "step": 363
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 0.0001,
+      "loss": 3.6152,
+      "step": 436
+    },
+    {
+      "epoch": 5.99,
+      "eval_bleu": 1.0505,
+      "eval_bp": 0.968,
+      "eval_counts_1": 4103,
+      "eval_counts_2": 341,
+      "eval_counts_3": 77,
+      "eval_counts_4": 11,
+      "eval_exact_match": 0.0,
+      "eval_f1": 0.112,
+      "eval_gen_len": 14.3607,
+      "eval_loss": 3.460298538208008,
+      "eval_precisions_1": 19.9359,
+      "eval_precisions_2": 1.8556,
+      "eval_precisions_3": 0.4761,
+      "eval_precisions_4": 0.0787,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.107,
+      "eval_rouge2": 0.019,
+      "eval_rougeL": 0.1023,
+      "eval_rougeLsum": 0.1024,
+      "eval_runtime": 3225.717,
+      "eval_samples_per_second": 0.683,
+      "eval_steps_per_second": 0.342,
+      "eval_sys_len": 20581,
+      "eval_totals_1": 20581,
+      "eval_totals_2": 18377,
+      "eval_totals_3": 16173,
+      "eval_totals_4": 13969,
+      "step": 436
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 0.0001,
+      "loss": 3.3814,
+      "step": 509
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 2.3489,
+      "eval_bp": 0.8218,
+      "eval_counts_1": 4342,
+      "eval_counts_2": 675,
+      "eval_counts_3": 218,
+      "eval_counts_4": 43,
+      "eval_exact_match": 0.0005,
+      "eval_f1": 0.1308,
+      "eval_gen_len": 10.2418,
+      "eval_loss": 3.2883455753326416,
+      "eval_precisions_1": 24.4441,
+      "eval_precisions_2": 4.3383,
+      "eval_precisions_3": 1.6323,
+      "eval_precisions_4": 0.3856,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1264,
+      "eval_rouge2": 0.0353,
+      "eval_rougeL": 0.1234,
+      "eval_rougeLsum": 0.1234,
+      "eval_runtime": 2402.3288,
+      "eval_samples_per_second": 0.917,
+      "eval_steps_per_second": 0.459,
+      "eval_sys_len": 17763,
+      "eval_totals_1": 17763,
+      "eval_totals_2": 15559,
+      "eval_totals_3": 13355,
+      "eval_totals_4": 11151,
+      "step": 509
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 0.0001,
+      "loss": 3.1711,
+      "step": 582
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 2.6207,
+      "eval_bp": 0.9273,
+      "eval_counts_1": 4820,
+      "eval_counts_2": 856,
+      "eval_counts_3": 246,
+      "eval_counts_4": 44,
+      "eval_exact_match": 0.0005,
+      "eval_f1": 0.1547,
+      "eval_gen_len": 14.3249,
+      "eval_loss": 3.0987935066223145,
+      "eval_precisions_1": 24.3939,
+      "eval_precisions_2": 4.8761,
+      "eval_precisions_3": 1.6025,
+      "eval_precisions_4": 0.3347,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1503,
+      "eval_rouge2": 0.0465,
+      "eval_rougeL": 0.1455,
+      "eval_rougeLsum": 0.1457,
+      "eval_runtime": 2969.3248,
+      "eval_samples_per_second": 0.742,
+      "eval_steps_per_second": 0.371,
+      "eval_sys_len": 19759,
+      "eval_totals_1": 19759,
+      "eval_totals_2": 17555,
+      "eval_totals_3": 15351,
+      "eval_totals_4": 13147,
+      "step": 582
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 0.0001,
+      "loss": 3.0147,
+      "step": 654
+    },
+    {
+      "epoch": 8.99,
+      "eval_bleu": 3.4764,
+      "eval_bp": 0.8739,
+      "eval_counts_1": 5167,
+      "eval_counts_2": 1066,
+      "eval_counts_3": 321,
+      "eval_counts_4": 76,
+      "eval_exact_match": 0.0018,
+      "eval_f1": 0.1816,
+      "eval_gen_len": 14.3067,
+      "eval_loss": 2.9539589881896973,
+      "eval_precisions_1": 27.5941,
+      "eval_precisions_2": 6.4524,
+      "eval_precisions_3": 2.2421,
+      "eval_precisions_4": 0.6274,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.1773,
+      "eval_rouge2": 0.0588,
+      "eval_rougeL": 0.1721,
+      "eval_rougeLsum": 0.1721,
+      "eval_runtime": 2825.1201,
+      "eval_samples_per_second": 0.78,
+      "eval_steps_per_second": 0.39,
+      "eval_sys_len": 18725,
+      "eval_totals_1": 18725,
+      "eval_totals_2": 16521,
+      "eval_totals_3": 14317,
+      "eval_totals_4": 12113,
+      "step": 654
+    },
+    {
+      "epoch": 9.99,
+      "learning_rate": 0.0001,
+      "loss": 2.7829,
+      "step": 727
+    },
+    {
+      "epoch": 9.99,
+      "eval_bleu": 4.5099,
+      "eval_bp": 0.7974,
+      "eval_counts_1": 5625,
+      "eval_counts_2": 1267,
+      "eval_counts_3": 420,
+      "eval_counts_4": 124,
+      "eval_exact_match": 0.0045,
+      "eval_f1": 0.2159,
+      "eval_gen_len": 12.9741,
+      "eval_loss": 2.8288302421569824,
+      "eval_precisions_1": 32.4638,
+      "eval_precisions_2": 8.378,
+      "eval_precisions_3": 3.251,
+      "eval_precisions_4": 1.1573,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2127,
+      "eval_rouge2": 0.0741,
+      "eval_rougeL": 0.2067,
+      "eval_rougeLsum": 0.2065,
+      "eval_runtime": 2709.6941,
+      "eval_samples_per_second": 0.813,
+      "eval_steps_per_second": 0.407,
+      "eval_sys_len": 17327,
+      "eval_totals_1": 17327,
+      "eval_totals_2": 15123,
+      "eval_totals_3": 12919,
+      "eval_totals_4": 10715,
+      "step": 727
+    },
+    {
+      "epoch": 10.99,
+      "learning_rate": 0.0001,
+      "loss": 2.6093,
+      "step": 800
+    },
+    {
+      "epoch": 10.99,
+      "eval_bleu": 5.5051,
+      "eval_bp": 0.8685,
+      "eval_counts_1": 6005,
+      "eval_counts_2": 1469,
+      "eval_counts_3": 528,
+      "eval_counts_4": 181,
+      "eval_exact_match": 0.0064,
+      "eval_f1": 0.231,
+      "eval_gen_len": 14.4791,
+      "eval_loss": 2.7177300453186035,
+      "eval_precisions_1": 32.2416,
+      "eval_precisions_2": 8.9459,
+      "eval_precisions_3": 3.7139,
+      "eval_precisions_4": 1.5067,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.229,
+      "eval_rouge2": 0.0827,
+      "eval_rougeL": 0.2215,
+      "eval_rougeLsum": 0.2213,
+      "eval_runtime": 1457.0803,
+      "eval_samples_per_second": 1.513,
+      "eval_steps_per_second": 0.756,
+      "eval_sys_len": 18625,
+      "eval_totals_1": 18625,
+      "eval_totals_2": 16421,
+      "eval_totals_3": 14217,
+      "eval_totals_4": 12013,
+      "step": 800
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0001,
+      "loss": 2.453,
+      "step": 873
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 6.6865,
+      "eval_bp": 0.8515,
+      "eval_counts_1": 6396,
+      "eval_counts_2": 1744,
+      "eval_counts_3": 664,
+      "eval_counts_4": 246,
+      "eval_exact_match": 0.0059,
+      "eval_f1": 0.2565,
+      "eval_gen_len": 13.7142,
+      "eval_loss": 2.591360330581665,
+      "eval_precisions_1": 34.9375,
+      "eval_precisions_2": 10.8303,
+      "eval_precisions_3": 4.7773,
+      "eval_precisions_4": 2.1035,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2553,
+      "eval_rouge2": 0.0998,
+      "eval_rougeL": 0.2479,
+      "eval_rougeLsum": 0.2478,
+      "eval_runtime": 1377.6536,
+      "eval_samples_per_second": 1.6,
+      "eval_steps_per_second": 0.8,
+      "eval_sys_len": 18307,
+      "eval_totals_1": 18307,
+      "eval_totals_2": 16103,
+      "eval_totals_3": 13899,
+      "eval_totals_4": 11695,
+      "step": 873
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 0.0001,
+      "loss": 2.3329,
+      "step": 945
+    },
+    {
+      "epoch": 12.99,
+      "eval_bleu": 7.383,
+      "eval_bp": 0.8592,
+      "eval_counts_1": 6673,
+      "eval_counts_2": 1888,
+      "eval_counts_3": 741,
+      "eval_counts_4": 291,
+      "eval_exact_match": 0.0091,
+      "eval_f1": 0.2749,
+      "eval_gen_len": 14.1751,
+      "eval_loss": 2.499257802963257,
+      "eval_precisions_1": 36.1661,
+      "eval_precisions_2": 11.6206,
+      "eval_precisions_3": 5.2767,
+      "eval_precisions_4": 2.458,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2747,
+      "eval_rouge2": 0.1114,
+      "eval_rougeL": 0.2652,
+      "eval_rougeLsum": 0.2652,
+      "eval_runtime": 1427.0765,
+      "eval_samples_per_second": 1.544,
+      "eval_steps_per_second": 0.772,
+      "eval_sys_len": 18451,
+      "eval_totals_1": 18451,
+      "eval_totals_2": 16247,
+      "eval_totals_3": 14043,
+      "eval_totals_4": 11839,
+      "step": 945
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 0.0001,
+      "loss": 2.1663,
+      "step": 1018
+    },
+    {
+      "epoch": 13.99,
+      "eval_bleu": 8.1343,
+      "eval_bp": 0.8635,
+      "eval_counts_1": 6953,
+      "eval_counts_2": 2052,
+      "eval_counts_3": 834,
+      "eval_counts_4": 337,
+      "eval_exact_match": 0.0082,
+      "eval_f1": 0.2889,
+      "eval_gen_len": 14.6783,
+      "eval_loss": 2.4196276664733887,
+      "eval_precisions_1": 37.5209,
+      "eval_precisions_2": 12.5681,
+      "eval_precisions_3": 5.9053,
+      "eval_precisions_4": 2.8274,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2886,
+      "eval_rouge2": 0.1215,
+      "eval_rougeL": 0.2773,
+      "eval_rougeLsum": 0.277,
+      "eval_runtime": 1443.0194,
+      "eval_samples_per_second": 1.527,
+      "eval_steps_per_second": 0.764,
+      "eval_sys_len": 18531,
+      "eval_totals_1": 18531,
+      "eval_totals_2": 16327,
+      "eval_totals_3": 14123,
+      "eval_totals_4": 11919,
+      "step": 1018
+    },
+    {
+      "epoch": 14.99,
+      "learning_rate": 0.0001,
+      "loss": 2.0422,
+      "step": 1091
+    },
+    {
+      "epoch": 14.99,
+      "eval_bleu": 8.4322,
+      "eval_bp": 0.8339,
+      "eval_counts_1": 6968,
+      "eval_counts_2": 2089,
+      "eval_counts_3": 862,
+      "eval_counts_4": 365,
+      "eval_exact_match": 0.0113,
+      "eval_f1": 0.2951,
+      "eval_gen_len": 13.6987,
+      "eval_loss": 2.3703055381774902,
+      "eval_precisions_1": 38.7456,
+      "eval_precisions_2": 13.2383,
+      "eval_precisions_3": 6.3494,
+      "eval_precisions_4": 3.2096,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.2961,
+      "eval_rouge2": 0.1268,
+      "eval_rougeL": 0.2858,
+      "eval_rougeLsum": 0.2857,
+      "eval_runtime": 1381.8523,
+      "eval_samples_per_second": 1.595,
+      "eval_steps_per_second": 0.797,
+      "eval_sys_len": 17984,
+      "eval_totals_1": 17984,
+      "eval_totals_2": 15780,
+      "eval_totals_3": 13576,
+      "eval_totals_4": 11372,
+      "step": 1091
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.0001,
+      "loss": 1.9245,
+      "step": 1164
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 9.5973,
+      "eval_bp": 0.8892,
+      "eval_counts_1": 7500,
+      "eval_counts_2": 2353,
+      "eval_counts_3": 999,
+      "eval_counts_4": 446,
+      "eval_exact_match": 0.0132,
+      "eval_f1": 0.314,
+      "eval_gen_len": 14.77,
+      "eval_loss": 2.3217406272888184,
+      "eval_precisions_1": 39.4384,
+      "eval_precisions_2": 13.9951,
+      "eval_precisions_3": 6.8383,
+      "eval_precisions_4": 3.5953,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3149,
+      "eval_rouge2": 0.1407,
+      "eval_rougeL": 0.3017,
+      "eval_rougeLsum": 0.3017,
+      "eval_runtime": 1430.5793,
+      "eval_samples_per_second": 1.541,
+      "eval_steps_per_second": 0.77,
+      "eval_sys_len": 19017,
+      "eval_totals_1": 19017,
+      "eval_totals_2": 16813,
+      "eval_totals_3": 14609,
+      "eval_totals_4": 12405,
+      "step": 1164
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 0.0001,
+      "loss": 1.8216,
+      "step": 1237
+    },
+    {
+      "epoch": 17.0,
+      "eval_bleu": 9.9557,
+      "eval_bp": 0.8467,
+      "eval_counts_1": 7444,
+      "eval_counts_2": 2357,
+      "eval_counts_3": 1044,
+      "eval_counts_4": 488,
+      "eval_exact_match": 0.0132,
+      "eval_f1": 0.3181,
+      "eval_gen_len": 13.8031,
+      "eval_loss": 2.27047061920166,
+      "eval_precisions_1": 40.8584,
+      "eval_precisions_2": 14.7175,
+      "eval_precisions_3": 7.5592,
+      "eval_precisions_4": 4.2044,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3201,
+      "eval_rouge2": 0.1437,
+      "eval_rougeL": 0.3081,
+      "eval_rougeLsum": 0.3077,
+      "eval_runtime": 1357.6078,
+      "eval_samples_per_second": 1.623,
+      "eval_steps_per_second": 0.812,
+      "eval_sys_len": 18219,
+      "eval_totals_1": 18219,
+      "eval_totals_2": 16015,
+      "eval_totals_3": 13811,
+      "eval_totals_4": 11607,
+      "step": 1237
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 0.0001,
+      "loss": 1.7503,
+      "step": 1309
+    },
+    {
+      "epoch": 17.99,
+      "eval_bleu": 10.4354,
+      "eval_bp": 0.8498,
+      "eval_counts_1": 7571,
+      "eval_counts_2": 2487,
+      "eval_counts_3": 1114,
+      "eval_counts_4": 515,
+      "eval_exact_match": 0.0145,
+      "eval_f1": 0.3265,
+      "eval_gen_len": 13.9106,
+      "eval_loss": 2.238603353500366,
+      "eval_precisions_1": 41.4282,
+      "eval_precisions_2": 15.4751,
+      "eval_precisions_3": 8.0335,
+      "eval_precisions_4": 4.4157,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3289,
+      "eval_rouge2": 0.1512,
+      "eval_rougeL": 0.3153,
+      "eval_rougeLsum": 0.3151,
+      "eval_runtime": 1353.0462,
+      "eval_samples_per_second": 1.629,
+      "eval_steps_per_second": 0.814,
+      "eval_sys_len": 18275,
+      "eval_totals_1": 18275,
+      "eval_totals_2": 16071,
+      "eval_totals_3": 13867,
+      "eval_totals_4": 11663,
+      "step": 1309
+    },
+    {
+      "epoch": 18.99,
+      "learning_rate": 0.0001,
+      "loss": 1.6342,
+      "step": 1382
+    },
+    {
+      "epoch": 18.99,
+      "eval_bleu": 10.7447,
+      "eval_bp": 0.8418,
+      "eval_counts_1": 7697,
+      "eval_counts_2": 2536,
+      "eval_counts_3": 1155,
+      "eval_counts_4": 537,
+      "eval_exact_match": 0.0177,
+      "eval_f1": 0.3313,
+      "eval_gen_len": 13.8494,
+      "eval_loss": 2.2182679176330566,
+      "eval_precisions_1": 42.4568,
+      "eval_precisions_2": 15.9246,
+      "eval_precisions_3": 8.4178,
+      "eval_precisions_4": 4.6627,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3342,
+      "eval_rouge2": 0.1559,
+      "eval_rougeL": 0.3224,
+      "eval_rougeLsum": 0.3222,
+      "eval_runtime": 1333.2607,
+      "eval_samples_per_second": 1.653,
+      "eval_steps_per_second": 0.827,
+      "eval_sys_len": 18129,
+      "eval_totals_1": 18129,
+      "eval_totals_2": 15925,
+      "eval_totals_3": 13721,
+      "eval_totals_4": 11517,
+      "step": 1382
+    },
+    {
+      "epoch": 19.79,
+      "learning_rate": 0.0001,
+      "loss": 1.5474,
+      "step": 1440
+    },
+    {
+      "epoch": 19.79,
+      "eval_bleu": 11.1066,
+      "eval_bp": 0.8786,
+      "eval_counts_1": 7879,
+      "eval_counts_2": 2632,
+      "eval_counts_3": 1187,
+      "eval_counts_4": 570,
+      "eval_exact_match": 0.0177,
+      "eval_f1": 0.3375,
+      "eval_gen_len": 14.5136,
+      "eval_loss": 2.1956045627593994,
+      "eval_precisions_1": 41.8762,
+      "eval_precisions_2": 15.8449,
+      "eval_precisions_3": 8.2391,
+      "eval_precisions_4": 4.671,
+      "eval_ref_len": 21250,
+      "eval_rouge1": 0.3398,
+      "eval_rouge2": 0.1607,
+      "eval_rougeL": 0.326,
+      "eval_rougeLsum": 0.326,
+      "eval_runtime": 1394.5803,
+      "eval_samples_per_second": 1.58,
+      "eval_steps_per_second": 0.79,
+      "eval_sys_len": 18815,
+      "eval_totals_1": 18815,
+      "eval_totals_2": 16611,
+      "eval_totals_3": 14407,
+      "eval_totals_4": 12203,
+      "step": 1440
+    },
+    {
+      "epoch": 19.79,
+      "step": 1440,
+      "total_flos": 8.496574887886848e+17,
+      "train_loss": 3.111723126305474,
+      "train_runtime": 93678.1212,
+      "train_samples_per_second": 1.989,
+      "train_steps_per_second": 0.015
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1440,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 8.496574887886848e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

Binary file (4.66 kB). View file