marinone94
/

xls-r-300m-sv-robust

@@ -1,4 +1,6 @@
 """ Script to prepare and upload dataset for training Swedish n-gram LM to boost ASR. """
 # Check colab notebook to get started
-# https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Boosting_Wav2Vec2_with_n_grams_in_Transformers.ipynb#scrollTo=IrAzjWc3Ok2l

 """ Script to prepare and upload dataset for training Swedish n-gram LM to boost ASR. """
 # Check colab notebook to get started
+# https://colab.research.google.com/github/patrickvonplaten/notebooks/blob/master/Boosting_Wav2Vec2_with_n_grams_in_Transformers.ipynb#scrollTo=IrAzjWc3Ok2l
+# Notebook train_n_gram_lm_with_KenLM.ipynb has actual code

run_speech_recognition_ctc.py CHANGED Viewed

@@ -13,7 +13,13 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
-""" Fine-tuning a 🤗 Transformers CTC model for automatic speech recognition"""
 import datetime
 import functools
@@ -325,6 +331,7 @@ def create_vocabulary_from_data(
     unk_token: Optional[str] = None,
     pad_token: Optional[str] = None,
 ):
     # Given training and test labels create vocabulary
     def extract_all_chars(batch, vocab):
         all_text = " ".join(batch)
@@ -356,20 +363,18 @@ def create_vocabulary_from_data(
     return vocab_dict
-def main():
-    # See all possible arguments in src/transformers/training_args.py
-    # or by passing the --help flag to this script.
-    # We now keep distinct sets of args, for a cleaner separation of concerns.
-    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, TrainingArguments))
-    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
-        # If we pass only one argument to the script and it's the path to a json file,
-        # let's parse it to get our arguments.
-        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
-    else:
-        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
-    # TODO: Replace with check of wandb env vars
     try:
         repo_name = os.getcwd().split("/")[-1]
         run_name = f"{datetime.datetime.utcnow()}".replace(" ", "T")
@@ -377,11 +382,12 @@ def main():
         wandb.login()
         training_args.report_to = ["wandb"]
         training_args.run_name = run_name
-        # wandb.init()
-    except:
-        pass
-    # Detecting last checkpoint.
     last_checkpoint = None
     if os.path.isdir(training_args.output_dir) and training_args.do_train and not training_args.overwrite_output_dir:
         last_checkpoint = get_last_checkpoint(training_args.output_dir)
@@ -395,14 +401,10 @@ def main():
                 f"Checkpoint detected, resuming training at {last_checkpoint}. To avoid this behavior, change "
                 "the `--output_dir` or add `--overwrite_output_dir` to train from scratch."
             )
-    # Setup logging
-    logging.basicConfig(
-        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
-        datefmt="%m/%d/%Y %H:%M:%S",
-        handlers=[logging.StreamHandler(sys.stdout)],
-    )
-    logger.setLevel(logging.INFO if is_main_process(training_args.local_rank) else logging.WARN)
     # Log on each process the small summary:
     logger.warning(
@@ -414,54 +416,12 @@ def main():
         transformers.utils.logging.set_verbosity_info()
     logger.info("Training/evaluation parameters %s", training_args)
-    # Set seed before initializing model.
-    set_seed(training_args.seed)
-    # 1. First, let's load the dataset
-    raw_datasets = DatasetDict()
-    def common_cols(columns_a, columns_b):
-        col_a = set(columns_a)
-        col_b = set(columns_b)
-        return [col for col in col_a if col in col_b]
     if training_args.do_train:
-        # Multiple datasets might need to be loaded from HF
-        # It assumes they all follow the common voice format
-        # for (dataset_name, dataset_config_name, train_split_name) in zip(
-        #     data_args.dataset_name.split(","),
-        #     data_args.dataset_config_name.split(","),
-        #     data_args.train_split_name.split(","),
-        # ):
-        #     if train_split_name != "None":
-        #         if "train" not in raw_datasets:
-        #             raw_datasets["train"] = load_dataset(
-        #                 dataset_name,
-        #                 dataset_config_name,
-        #                 split=train_split_name,
-        #                 use_auth_token=data_args.use_auth_token,
-        #             )
-        #             min_columns_train = raw_datasets["train"].column_names
-        #         else:
-        #             new_dataset = load_dataset(
-        #                 dataset_name,
-        #                 dataset_config_name,
-        #                 split=train_split_name,
-        #                 use_auth_token=data_args.use_auth_token,
-        #             )
-        #             raw_datasets["train"] = concatenate_datasets(
-        #                 [
-        #                     raw_datasets["train"],
-        #                     new_dataset
-        #                 ]
-        #             )
-        #             min_columns_train = common_cols(min_columns_train, new_dataset.column_names)
-        #     else:
-        #         logging.warning(f"{dataset_name} {dataset_config_name} train not loaded as split is {train_split_name}")
         raw_datasets["train"] = load_dataset(
             data_args.dataset_name,
             data_args.dataset_config_name,
@@ -477,7 +437,7 @@ def main():
             )
         dataset_frequency = raw_datasets["train"].features[data_args.audio_column_name].sampling_rate
-        print(f"Dataset sampling rate: {dataset_frequency}")
         if data_args.text_column_name not in raw_datasets["train"].column_names:
             raise ValueError(
@@ -488,48 +448,8 @@ def main():
         if data_args.max_train_samples is not None:
             raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
-        # other_columns_train = [col for col in raw_datasets["train"].column_names if col not in min_columns_train]
-        # raw_datasets["train"].remove_columns(other_columns_train)
-    # pd_train_head = raw_datasets["train"].select(range(10)).to_pandas()
-    # pd_train_tail = raw_datasets["train"].select(range(raw_datasets["train"].num_rows-10, raw_datasets["train"].num_rows)).to_pandas()
-    # pd_train = pd.concat([pd_train_head, pd_train_tail])
-    # print(pd_train["audio"])
     if training_args.do_eval:
-        # Multiple datasets might need to be loaded from HF
-        # It assumes they all follow the common voice format
-        # for (dataset_name, dataset_config_name, eval_split_name) in zip(
-        #     data_args.dataset_name.split(","),
-        #     data_args.dataset_config_name.split(","),
-        #     data_args.eval_split_name.split(","),
-        # ):
-        #     if eval_split_name != "None":
-        #         if "eval" not in raw_datasets:
-        #             raw_datasets["eval"] = load_dataset(
-        #                 dataset_name,
-        #                 dataset_config_name,
-        #                 split=eval_split_name,
-        #                 use_auth_token=data_args.use_auth_token,
-        #             )
-        #             min_columns_eval = raw_datasets["eval"].column_names
-        #         else:
-        #             new_dataset = load_dataset(
-        #                 dataset_name,
-        #                 dataset_config_name,
-        #                 split=eval_split_name,
-        #                 use_auth_token=data_args.use_auth_token,
-        #             )
-        #             raw_datasets["eval"] = concatenate_datasets(
-        #                 [
-        #                     raw_datasets["eval"],
-        #                     new_dataset
-        #                 ]
-        #             )
-        #             min_columns_eval = common_cols(min_columns_eval, new_dataset.column_names)
-        #     else:
-        #         logging.warning(f"{dataset_name} {dataset_config_name} eval not loaded as split is {eval_split_name}")
         try:
             raw_datasets["eval"] = load_dataset(
@@ -542,23 +462,16 @@ def main():
             split_dataset = raw_datasets["train"].train_test_split(test_size=0.1, seed=42)
             raw_datasets["train"] = split_dataset["train"]
             raw_datasets["eval"] = split_dataset["test"]
-            print(raw_datasets["eval"])
-            print("Sampled from training set")
         if data_args.max_eval_samples is not None:
             raw_datasets["eval"] = raw_datasets["eval"].select(range(data_args.max_eval_samples))
-        # other_columns_eval = [col for col in raw_datasets["eval"].column_names if col not in min_columns_eval]
-        # raw_datasets["eval"].remove_columns(other_columns_eval)
-    # pd_eval_head = raw_datasets["eval"].select(range(10)).to_pandas()
-    # pd_eval_tail = raw_datasets["eval"].select(range(raw_datasets["eval"].num_rows-10, raw_datasets["eval"].num_rows)).to_pandas()
-    # pd_eval = pd.concat([pd_eval_head, pd_eval_tail])
-    # print(pd_eval["audio"])
-    # 2. We remove some special characters from the datasets
-    # that make training complicated and do not help in transcribing the speech
-    # E.g. characters, such as `,` and `.` do not really have an acoustic characteristic
-    # that could be easily picked up by the model
     chars_to_ignore_regex = (
         f'[{"".join(data_args.chars_to_ignore)}]' if data_args.chars_to_ignore is not None else None
     )
@@ -571,35 +484,30 @@ def main():
         return False
     def remove_special_characters(batch):
         if chars_to_ignore_regex is not None:
-            batch["target_text"] = \
-                re.sub(chars_to_ignore_regex, "", batch[text_column_name]) \
-                    .replace("\\\\Punkt", "") \
-                    .replace("\\\\Komma", "") \
-                    .replace("è", "e") \
-                    .replace("é", "e") \
-                    .replace("î", "i") \
-                    .replace("ü", "u") \
-                    .replace("ÿ", "y") \
-                    .replace("ô", "o") \
-                    .replace("\\", "") \
-                    .replace("/", "") \
-                    .replace("|", "") \
-                    .lower() + " "
         else:
-            batch["target_text"] = batch[text_column_name] \
-                .replace("\\\\Punkt", "") \
-                .replace("\\\\Komma", "") \
-                .replace("è", "e") \
-                .replace("é", "e") \
-                .replace("î", "i") \
-                .replace("ü", "u") \
-                .replace("ÿ", "y") \
-                .replace("ô", "o") \
-                .replace("\\", "") \
-                .replace("/", "") \
-                .replace("|", "") \
-                .lower() + " "
         return batch
     num_workers = data_args.preprocessing_num_workers
@@ -617,23 +525,11 @@ def main():
             desc="remove single words, single chars and 'W O R D S'",
         )
-    # save special tokens for tokenizer
-    word_delimiter_token = data_args.word_delimiter_token
-    unk_token = data_args.unk_token
-    pad_token = data_args.pad_token
-    # 3. Next, let's load the config as we might need it to create
-    # the tokenizer
-    # load config
-    config = AutoConfig.from_pretrained(
-        model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_auth_token=data_args.use_auth_token
-    )
-    # 4. Next, if no tokenizer file is defined,
-    # we create the vocabulary of the model by extracting all unique characters from
-    # the training and evaluation datasets
-    # We need to make sure that only first rank saves vocabulary
-    # make sure all processes wait until vocab is created
     tokenizer_name_or_path = model_args.tokenizer_name_or_path
     tokenizer_kwargs = {}
     if tokenizer_name_or_path is None:
@@ -651,9 +547,9 @@ def main():
                 os.makedirs(tokenizer_name_or_path, exist_ok=True)
                 vocab_dict = create_vocabulary_from_data(
                     raw_datasets,
-                    word_delimiter_token=word_delimiter_token,
-                    unk_token=unk_token,
-                    pad_token=pad_token,
                 )
                 # save vocab dict to be loaded into tokenizer
@@ -665,61 +561,15 @@ def main():
         tokenizer_kwargs = {
             "config": config if config.tokenizer_class is not None else None,
             "tokenizer_type": config.model_type if config.tokenizer_class is None else None,
-            "unk_token": unk_token,
-            "pad_token": pad_token,
-            "word_delimiter_token": word_delimiter_token,
-        }
-    # 5. Now we can instantiate the feature extractor, tokenizer and model
-    # Note for distributed training, the .from_pretrained methods guarantee that only
-    # one local process can concurrently download model & vocab.
-    # load feature_extractor and tokenizer
-    tokenizer = AutoTokenizer.from_pretrained(
-        tokenizer_name_or_path,
-        use_auth_token=data_args.use_auth_token,
-        **tokenizer_kwargs,
-    )
-    feature_extractor = AutoFeatureExtractor.from_pretrained(
-        model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_auth_token=data_args.use_auth_token
-    )
-    # adapt config
-    config.update(
-        {
-            "feat_proj_dropout": model_args.feat_proj_dropout,
-            "attention_dropout": model_args.attention_dropout,
-            "hidden_dropout": model_args.hidden_dropout,
-            "final_dropout": model_args.final_dropout,
-            "mask_time_prob": model_args.mask_time_prob,
-            "mask_time_length": model_args.mask_time_length,
-            "mask_feature_prob": model_args.mask_feature_prob,
-            "mask_feature_length": model_args.mask_feature_length,
-            "gradient_checkpointing": training_args.gradient_checkpointing,
-            "layerdrop": model_args.layerdrop,
-            "ctc_loss_reduction": model_args.ctc_loss_reduction,
-            "pad_token_id": tokenizer.pad_token_id,
-            "vocab_size": len(tokenizer),
-            "activation_dropout": model_args.activation_dropout,
         }
-    )
-    # create model
-    model = AutoModelForCTC.from_pretrained(
-        model_args.model_name_or_path,
-        cache_dir=model_args.cache_dir,
-        config=config,
-        use_auth_token=data_args.use_auth_token,
-    )
-    # freeze encoder
-    if model_args.freeze_feature_encoder:
-        model.freeze_feature_encoder()
-    # 6. Now we preprocess the datasets including loading the audio, resampling and normalization
-    # Thankfully, `datasets` takes care of automatically loading and resampling the audio,
-    # so that we just need to set the correct target sampling rate and normalize the input
-    # via the `feature_extractor`
     # make sure that dataset decodes audio with correct sampling rate
     dataset_sampling_rate = next(iter(raw_datasets.values())).features[data_args.audio_column_name].sampling_rate
@@ -759,13 +609,13 @@ def main():
         vectorized_datasets["train"] = raw_datasets["train"].map(
             prepare_dataset,
             remove_columns=raw_datasets["train"].column_names,
-            num_proc=num_workers,
             desc="preprocess datasets",
         )
         vectorized_datasets["eval"] = raw_datasets["eval"].map(
             prepare_dataset,
             remove_columns=raw_datasets["eval"].column_names,
-            num_proc=num_workers,
             desc="preprocess datasets",
         )
@@ -775,13 +625,44 @@ def main():
         # filter data that is shorter than min_input_length
         vectorized_datasets = vectorized_datasets.filter(
             is_audio_in_length_range,
-            num_proc=num_workers,
             input_columns=["input_length"],
         )
-    # 7. Next, we can prepare the training.
-    # Let's use word error rate (WER) as our evaluation metric,
-    # instantiate a data collator and the trainer
     # Define evaluation metrics during training, *i.e.* word error rate, character error rate
     eval_metrics = {metric: load_metric(metric) for metric in data_args.eval_metrics}
@@ -790,12 +671,11 @@ def main():
     if data_args.dataset_seed is not None:
         vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(seed=data_args.dataset_seed)
-    # TODO: Log sample of datasets in the right way (see wandb docs)
-    pd_train = vectorized_datasets["train"].select(range(10)).to_pandas()
-    pd_eval = vectorized_datasets["eval"].select(range(10)).to_pandas()
-    # wandb.log({"train_sample": pd_train})
-    # wandb.log({"eval_sample": pd_eval})
     # for large datasets it is advised to run the preprocessing on a
     # single machine first with ``args.preprocessing_only`` since there will mostly likely
     # be a timeout when running the script in distributed mode.
@@ -815,9 +695,6 @@ def main():
         # we do not want to group tokens when computing the metrics
         label_str = tokenizer.batch_decode(pred.label_ids, group_tokens=False)
-        print(pred_str[:10])
-        print(label_str[:10])
         metrics = {k: v.compute(predictions=pred_str, references=label_str) for k, v in eval_metrics.items()}
         return metrics
@@ -845,7 +722,7 @@ def main():
     data_collator = DataCollatorCTCWithPadding(processor=processor)
     # Initialize Trainer
-    trainer = Trainer(
         model=model,
         data_collator=data_collator,
         args=training_args,
@@ -855,48 +732,62 @@ def main():
         tokenizer=feature_extractor,
     )
-    # 8. Finally, we can start training
-    # Training
-    if training_args.do_train:
-        # use last checkpoint if exist
-        if last_checkpoint is not None:
-            checkpoint = last_checkpoint
-        elif os.path.isdir(model_args.model_name_or_path):
-            checkpoint = model_args.model_name_or_path
-        else:
-            checkpoint = None
-        train_result = trainer.train(resume_from_checkpoint=checkpoint)
-        trainer.save_model()
-        metrics = train_result.metrics
-        max_train_samples = (
-            data_args.max_train_samples
-            if data_args.max_train_samples is not None
-            else len(vectorized_datasets["train"])
-        )
-        metrics["train_samples"] = min(max_train_samples, len(vectorized_datasets["train"]))
-        trainer.log_metrics("train", metrics)
-        trainer.save_metrics("train", metrics)
-        trainer.save_state()
-    # Evaluation
-    results = {}
-    if training_args.do_eval:
-        logger.info("*** Evaluate ***")
-        metrics = trainer.evaluate()
-        max_eval_samples = (
-            data_args.max_eval_samples if data_args.max_eval_samples is not None else len(vectorized_datasets["eval"])
-        )
-        metrics["eval_samples"] = min(max_eval_samples, len(vectorized_datasets["eval"]))
-        trainer.log_metrics("eval", metrics)
-        trainer.save_metrics("eval", metrics)
-    # Write model card and (optionally) push to hub
     config_name = data_args.dataset_config_name if data_args.dataset_config_name is not None else "na"
     kwargs = {
         "finetuned_from": model_args.model_name_or_path,
@@ -912,9 +803,179 @@ def main():
         trainer.push_to_hub(**kwargs)
     else:
         trainer.create_model_card(**kwargs)
-    return results
 if __name__ == "__main__":
     main()

 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
+""" Fine-tuning a 🤗 Transformers CTC model for automatic speech recognition.
+TODO:
+* add docstring and complete code docs
+* update model card
+"""
 import datetime
 import functools
     unk_token: Optional[str] = None,
     pad_token: Optional[str] = None,
 ):
     # Given training and test labels create vocabulary
     def extract_all_chars(batch, vocab):
         all_text = " ".join(batch)
     return vocab_dict
+def set_log_config_and_level(local_rank):
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        handlers=[logging.StreamHandler(sys.stdout)],
+    )
+    logger.setLevel(logging.INFO if is_main_process(local_rank) else logging.WARN)
+def log_to_wandb(training_args):
     try:
         repo_name = os.getcwd().split("/")[-1]
         run_name = f"{datetime.datetime.utcnow()}".replace(" ", "T")
         wandb.login()
         training_args.report_to = ["wandb"]
         training_args.run_name = run_name
+    except Exception as e:
+        logger.warning(f"\nFailed logging in to wandb: {e}\nThis experiment will not be logged.\n")
+def detect_last_checkpoint(training_args):
     last_checkpoint = None
     if os.path.isdir(training_args.output_dir) and training_args.do_train and not training_args.overwrite_output_dir:
         last_checkpoint = get_last_checkpoint(training_args.output_dir)
                 f"Checkpoint detected, resuming training at {last_checkpoint}. To avoid this behavior, change "
                 "the `--output_dir` or add `--overwrite_output_dir` to train from scratch."
             )
+    return last_checkpoint
+def log_small_sumary(training_args):
     # Log on each process the small summary:
     logger.warning(
         transformers.utils.logging.set_verbosity_info()
     logger.info("Training/evaluation parameters %s", training_args)
+def load_dataset(training_args, data_args):
+    raw_datasets = DatasetDict()
     if training_args.do_train:
         raw_datasets["train"] = load_dataset(
             data_args.dataset_name,
             data_args.dataset_config_name,
             )
         dataset_frequency = raw_datasets["train"].features[data_args.audio_column_name].sampling_rate
+        logger.info(f"Dataset sampling rate: {dataset_frequency}")
         if data_args.text_column_name not in raw_datasets["train"].column_names:
             raise ValueError(
         if data_args.max_train_samples is not None:
             raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
     if training_args.do_eval:
         try:
             raw_datasets["eval"] = load_dataset(
             split_dataset = raw_datasets["train"].train_test_split(test_size=0.1, seed=42)
             raw_datasets["train"] = split_dataset["train"]
             raw_datasets["eval"] = split_dataset["test"]
+            logger.info("Eval training set sampled from training set.\nTest size: 0.1\nSeed: 42")
         if data_args.max_eval_samples is not None:
             raw_datasets["eval"] = raw_datasets["eval"].select(range(data_args.max_eval_samples))
+    return raw_datasets
+def clean_dataset(raw_datasets, training_args, data_args):
     chars_to_ignore_regex = (
         f'[{"".join(data_args.chars_to_ignore)}]' if data_args.chars_to_ignore is not None else None
     )
         return False
     def remove_special_characters(batch):
+        repl_dict = {
+            "\\\\Punkt": "",
+            "\\\\Komma": "",
+            "è": "e",
+            "é": "e",
+            "î": "i",
+            "ü": "u",
+            "ÿ": "y",
+            "ô": "o",
+            "\\": "",
+            "/": "",
+            "|": ""
+        }
         if chars_to_ignore_regex is not None:
+           target_text = re.sub(chars_to_ignore_regex, "", batch[text_column_name])
         else:
+            target_text = batch[text_column_name]
+        for orig, repl in repl_dict.items():
+            target_text = target_text.replace(orig, repl)
+        batch["target_text"] = target_text.lower() + " "
         return batch
     num_workers = data_args.preprocessing_num_workers
             desc="remove single words, single chars and 'W O R D S'",
         )
+    return raw_datasets
+def create_tokenizer_kwargs(raw_datasets, training_args, model_args, data_args, config):
     tokenizer_name_or_path = model_args.tokenizer_name_or_path
     tokenizer_kwargs = {}
     if tokenizer_name_or_path is None:
                 os.makedirs(tokenizer_name_or_path, exist_ok=True)
                 vocab_dict = create_vocabulary_from_data(
                     raw_datasets,
+                    word_delimiter_token=data_args.word_delimiter_token,
+                    unk_token=data_args.unk_token,
+                    pad_token=data_args.pad_token,
                 )
                 # save vocab dict to be loaded into tokenizer
         tokenizer_kwargs = {
             "config": config if config.tokenizer_class is not None else None,
             "tokenizer_type": config.model_type if config.tokenizer_class is None else None,
+            "unk_token": data_args.unk_token,
+            "pad_token": data_args.pad_token,
+            "word_delimiter_token": data_args.word_delimiter_token,
         }
+    return tokenizer_kwargs
+def vectorize_dataset(raw_datasets, feature_extractor, tokenizer, training_args, data_args):
     # make sure that dataset decodes audio with correct sampling rate
     dataset_sampling_rate = next(iter(raw_datasets.values())).features[data_args.audio_column_name].sampling_rate
         vectorized_datasets["train"] = raw_datasets["train"].map(
             prepare_dataset,
             remove_columns=raw_datasets["train"].column_names,
+            num_proc=data_args.preprocessing_num_workers,
             desc="preprocess datasets",
         )
         vectorized_datasets["eval"] = raw_datasets["eval"].map(
             prepare_dataset,
             remove_columns=raw_datasets["eval"].column_names,
+            num_proc=data_args.preprocessing_num_workers,
             desc="preprocess datasets",
         )
         # filter data that is shorter than min_input_length
         vectorized_datasets = vectorized_datasets.filter(
             is_audio_in_length_range,
+            num_proc=data_args.preprocessing_num_workers,
             input_columns=["input_length"],
         )
+def log_dataset_sample_on_wandb(vectorized_datasets, audio_column_name):
+    pd_train = vectorized_datasets["train"].select(range(10)).to_pandas()
+    pd_eval = vectorized_datasets["eval"].select(range(10)).to_pandas()
+    dict_log = {}
+    for i, audio in pd_train[audio_column_name]:
+        dict_log[f"Training sample {i}"] = wandb.Audio(
+            audio["array"],
+            audio_rate=audio["sampling_rate"]
+        )
+    for i, audio in pd_eval[audio_column_name]:
+        dict_log[f"Eval sample {i}"] = wandb.Audio(
+            audio["array"],
+            audio_rate=audio["sampling_rate"]
+        )
+    wandb.log({
+        "Training samples": pd_train.drop(labels=audio_column_name, axis=1),
+        "Eval samples": pd_eval.drop(labels=audio_column_name, axis=1),
+        "Audio samples": dict_log
+    })
+def prepare_training(
+    model,
+    vectorized_datasets,
+    feature_extractor,
+    tokenizer,
+    training_args,
+    data_args,
+    config
+):
     # Define evaluation metrics during training, *i.e.* word error rate, character error rate
     eval_metrics = {metric: load_metric(metric) for metric in data_args.eval_metrics}
     if data_args.dataset_seed is not None:
         vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(seed=data_args.dataset_seed)
+    log_dataset_sample_on_wandb(
+        vectorized_datasets=vectorized_datasets,
+        audio_column_name=data_args.audio_column_name
+    )
     # for large datasets it is advised to run the preprocessing on a
     # single machine first with ``args.preprocessing_only`` since there will mostly likely
     # be a timeout when running the script in distributed mode.
         # we do not want to group tokens when computing the metrics
         label_str = tokenizer.batch_decode(pred.label_ids, group_tokens=False)
         metrics = {k: v.compute(predictions=pred_str, references=label_str) for k, v in eval_metrics.items()}
         return metrics
     data_collator = DataCollatorCTCWithPadding(processor=processor)
     # Initialize Trainer
+    return Trainer(
         model=model,
         data_collator=data_collator,
         args=training_args,
         tokenizer=feature_extractor,
     )
+def do_training(
+    trainer,
+    last_checkpoint,
+    vectorized_datasets,
+    model_args,
+    data_args
+):
+    # use last checkpoint if exist
+    if last_checkpoint is not None:
+        checkpoint = last_checkpoint
+    elif os.path.isdir(model_args.model_name_or_path):
+        checkpoint = model_args.model_name_or_path
+    else:
+        checkpoint = None
+    train_result = trainer.train(resume_from_checkpoint=checkpoint)
+    trainer.save_model()
+    metrics = train_result.metrics
+    max_train_samples = (
+        data_args.max_train_samples
+        if data_args.max_train_samples is not None
+        else len(vectorized_datasets["train"])
+    )
+    metrics["train_samples"] = min(max_train_samples, len(vectorized_datasets["train"]))
+    trainer.log_metrics("train", metrics)
+    trainer.save_metrics("train", metrics)
+    trainer.save_state()
+    return trainer
+def do_eval(
+    trainer,
+    vectorized_datasets,
+    data_args
+):
+    logger.info("*** Evaluate ***")
+    metrics = trainer.evaluate()
+    max_eval_samples = (
+        data_args.max_eval_samples if data_args.max_eval_samples is not None else len(vectorized_datasets["eval"])
+    )
+    metrics["eval_samples"] = min(max_eval_samples, len(vectorized_datasets["eval"]))
+    trainer.log_metrics("eval", metrics)
+    trainer.save_metrics("eval", metrics)
+    return trainer
+def log_results(trainer, training_args, model_args, data_args):
     config_name = data_args.dataset_config_name if data_args.dataset_config_name is not None else "na"
     kwargs = {
         "finetuned_from": model_args.model_name_or_path,
         trainer.push_to_hub(**kwargs)
     else:
         trainer.create_model_card(**kwargs)
+def inst_model_tokenizer_feature_extractor(
+    tokenizer_kwargs,
+    training_args,
+    model_args,
+    data_args,
+    config
+):
+    # load tokenizer
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_args.tokenizer_name_or_path,
+        use_auth_token=data_args.use_auth_token,
+        **tokenizer_kwargs,
+    )
+    # load feature extractor
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_auth_token=data_args.use_auth_token
+    )
+    # adapt config
+    config.update(
+        {
+            "feat_proj_dropout": model_args.feat_proj_dropout,
+            "attention_dropout": model_args.attention_dropout,
+            "hidden_dropout": model_args.hidden_dropout,
+            "final_dropout": model_args.final_dropout,
+            "mask_time_prob": model_args.mask_time_prob,
+            "mask_time_length": model_args.mask_time_length,
+            "mask_feature_prob": model_args.mask_feature_prob,
+            "mask_feature_length": model_args.mask_feature_length,
+            "gradient_checkpointing": training_args.gradient_checkpointing,
+            "layerdrop": model_args.layerdrop,
+            "ctc_loss_reduction": model_args.ctc_loss_reduction,
+            "pad_token_id": tokenizer.pad_token_id,
+            "vocab_size": len(tokenizer),
+            "activation_dropout": model_args.activation_dropout,
+        }
+    )
+    # load model
+    model = AutoModelForCTC.from_pretrained(
+        model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        config=config,
+        use_auth_token=data_args.use_auth_token,
+    )
+    # freeze encoder
+    if model_args.freeze_feature_encoder:
+        model.freeze_feature_encoder()
+    return model, tokenizer, feature_extractor, config
+def main():
+    # 0. Parse arguments
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, TrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    # 1. Set logging
+    set_log_config_and_level(local_rank=training_args.local_rank)
+    training_args = log_to_wandb(training_args=training_args)
+    log_small_sumary(training_args=training_args)
+    # 2. Set random seed
+    set_seed(training_args.seed)
+    # 3. First, let's load the dataset
+    raw_datasets = load_dataset(training_args=training_args, data_args=data_args)
+    # 4. We remove some special characters from the datasets
+    # that make training complicated and do not help in transcribing the speech
+    # E.g. characters, such as `,` and `.` do not really have an acoustic characteristic
+    # that could be easily picked up by the model
+    raw_datasets = clean_dataset(
+        raw_datasets=raw_datasets,
+        training_args=training_args,
+        data_args=data_args
+    )
+    # 5. Next, let's load the config as we might need it to create the tokenizer
+    config = AutoConfig.from_pretrained(
+        model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_auth_token=data_args.use_auth_token
+    )
+    # 6. Next, if no tokenizer file is defined,
+    # we create the vocabulary of the model by extracting all unique characters from
+    # the training and evaluation datasets
+    # We need to make sure that only first rank saves vocabulary
+    # make sure all processes wait until vocab is created
+    tokenizer_kwargs = create_tokenizer_kwargs(
+        raw_datasets=raw_datasets,
+        training_args=training_args,
+        model_args=model_args,
+        data_args=data_args,
+        config=config
+    )
+    # 7. Now we can instantiate the feature extractor, tokenizer and model
+    # Note for distributed training, the .from_pretrained methods guarantee that only
+    # one local process can concurrently download model & vocab.
+    model, tokenizer, feature_extractor, config = inst_model_tokenizer_feature_extractor(
+        tokenizer_kwargs=tokenizer_kwargs,
+        training_args=training_args,
+        model_args=model_args,
+        data_args=data_args,
+        config=config
+    )
+    # 8. Now we preprocess the datasets including loading the audio, resampling and normalization
+    # Thankfully, `datasets` takes care of automatically loading and resampling the audio,
+    # so that we just need to set the correct target sampling rate and normalize the input
+    # via the `feature_extractor`
+    vectorized_datasets = vectorize_dataset(
+        raw_datasets=raw_datasets,
+        feature_extractor=feature_extractor,
+        tokenizer=tokenizer,
+        training_args=training_args,
+        data_args=data_args
+    )
+    # 9. Next, we can prepare the training.
+    # Let's use word error rate (WER) as our evaluation metric,
+    # instantiate a data collator and the trainer
+    trainer = prepare_training(
+        model=model,
+        vectorized_datasets=vectorized_datasets,
+        feature_extractor=feature_extractor,
+        tokenizer=tokenizer,
+        training_args=training_args,
+        data_args=data_args,
+        config=config
+    )
+    # 10. Train model
+    last_checkpoint = detect_last_checkpoint(training_args=training_args)
+    if training_args.do_train:
+        trainer = do_training(
+            trainer=trainer,
+            last_checkpoint=last_checkpoint,
+            vectorized_datasets=vectorized_datasets,
+            model_args=model_args,
+            data_args=data_args
+        )
+    # 11. Eval model
+    if training_args.do_eval:
+        trainer = do_eval(
+            trainer=trainer,
+            vectorized_datasets=vectorized_datasets,
+            data_args=data_args
+        )
+    # 12. Push to hub and update model card
+    log_results(
+        trainer=trainer,
+        training_args=training_args,
+        model_args=model_args,
+        data_args=data_args
+    )
 if __name__ == "__main__":
     main()