marinone94
/

xls-r-300m-sv-robust

Automatic Speech Recognition

mozilla-foundation/common_voice_9_0

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

marinone94 commited on Feb 1, 2022

Commit

38706e1

•

1 Parent(s): ba980b2

shuffle dataset- fix ttraining params.

Files changed (2) hide show

run.sh +7 -4
run_speech_recognition_ctc.py +8 -0

run.sh CHANGED Viewed

@@ -6,18 +6,21 @@ python run_speech_recognition_ctc.py \
 	--eval_split_name="test,None" \
 	--output_dir="./" \
 	--overwrite_output_dir \
-	--num_train_epochs="5" \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="16" \
 	--gradient_accumulation_steps="4" \
 	--learning_rate="7.5e-5" \
-	--warmup_steps="10000" \
 	--length_column_name="input_length" \
-	--evaluation_strategy="epoch" \
-	--save_strategy="epoch" \
 	--text_column_name="sentence" \
 	--chars_to_ignore , ? . ! \- \; \: \" “ % ‘ ” � — ’ … – \
 	--logging_steps="100" \
 	--layerdrop="0.0" \
 	--activation_dropout="0.1" \
 	--save_total_limit="3" \

 	--eval_split_name="test,None" \
 	--output_dir="./" \
 	--overwrite_output_dir \
+	--num_train_epochs="3" \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="16" \
 	--gradient_accumulation_steps="4" \
 	--learning_rate="7.5e-5" \
+	--warmup_ratio="0.02" \
 	--length_column_name="input_length" \
+	--evaluation_strategy="steps" \
+	--save_strategy="steps" \
+	--eval_steps="250" \
+	--save_steps="250" \
 	--text_column_name="sentence" \
 	--chars_to_ignore , ? . ! \- \; \: \" “ % ‘ ” � — ’ … – \
 	--logging_steps="100" \
+	--dataset_seed="42" \
 	--layerdrop="0.0" \
 	--activation_dropout="0.1" \
 	--save_total_limit="3" \

run_speech_recognition_ctc.py CHANGED Viewed

@@ -252,6 +252,10 @@ class DataTrainingArguments:
             " input audio to a sequence of phoneme sequences."
         },
     )
 @dataclass
@@ -743,6 +747,10 @@ def main():
     # Define evaluation metrics during training, *i.e.* word error rate, character error rate
     eval_metrics = {metric: load_metric(metric) for metric in data_args.eval_metrics}
     # for large datasets it is advised to run the preprocessing on a
     # single machine first with ``args.preprocessing_only`` since there will mostly likely
     # be a timeout when running the script in distributed mode.

             " input audio to a sequence of phoneme sequences."
         },
     )
+    dataset_seed: Optional[int] = field(
+        default=None,
+        metadata={"help": "Seed for shuffling training data"},
+    )
 @dataclass
     # Define evaluation metrics during training, *i.e.* word error rate, character error rate
     eval_metrics = {metric: load_metric(metric) for metric in data_args.eval_metrics}
+    # If dataset_seed is set, shuffle train
+    if data_args.dataset_seed is not None:
+        vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(seed=data_args.dataset_seed)
     # for large datasets it is advised to run the preprocessing on a
     # single machine first with ``args.preprocessing_only`` since there will mostly likely
     # be a timeout when running the script in distributed mode.