lsnoo/russian_fairseq · Hugging Face

Wav2vec2.0-xlsr-53 model is fine-tuned on commonvoice russian dataset

Configs (yaml)

checkpoint: save_interval: 1000 save_interval_updates: 1000 keep_interval_updates: 1 no_epoch_ckechpoints: true best_checkpoint_metric: wer

task: _name: audio_finetuning normalize: true labels: phn

dataset: num_workers: 6 max_tokens: 800000 skip_invalid_size_inputs_valid_test: true valid_subset: valie

distributed_training: ddp_backend: legacy_ddp distributed_world_size: 4

criterion: _name: ctc zero_infinity: true

optimization: max_update: 25000 lr: [0.00001] sentence_avg: true update_freq: [4]

optimizer: _name: adam adam_betas: (0.9, 0.98) adam_eps: 1e-8

lr_scheduler: _name: tri_stage phase_ratio: [0.1, 0.4, 0.5] final_lr_scale: 0.05

model: _name: wav2vec_ctc apply_mask: true mask_prob: 0.5 mask_channel_prob: 0.1 mask_channel_length: 64 layerdrop: 0.1 activation_dropout: 0.1 feature_grad_mult: 0.0 freeze_finetune_updates: 0