andriygav's picture
Update README.md
ac977b1 verified
|
raw
history blame
5.67 kB
metadata
license: mit
language:
  - ru
  - az
  - lez
datasets:
  - AlidarAsvarov/lezgi-rus-azer-corpus
base_model: facebook/nllb-200-distilled-600M
metrics:
  - bleu
  - chrf

Neural machine translation system for Lezgian, Russian and Azerbaijani languages

We release the first neural machine translation system for translation between Russian, Azerbaijani and the endangered Lezgian languages, as well as monolingual and parallel datasets collected and aligned for training and evaluating the system.

Get Usage

Russian-Lezgian example

from transformers import NllbTokenizer, AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )

model.eval()

tokenizer.src_lang = 'rus_Cyrl'
inputs = tokenizer(
    'Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли"', 
    return_tensors='pt',
    padding=True,
    truncation=True,
    max_length=40
)

tokenizer.tgt_lang = 'lez_Cyrl'
tokenizer.batch_decode(
    model.generate(
        **inputs,
        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
        max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
        num_beams=5
    ),
    skip_special_tokens=True
)

Azerbaijani-Lezgian example

from transformers import NllbTokenizer, AutoModelForSeq2SeqLM

model = AutoModelForSeq2SeqLM.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj")
tokenizer = NllbTokenizer.from_pretrained("AlidarAsvarov/nllb-200-600M-lez-rus-azj", )

model.eval()

tokenizer.src_lang = 'azj_Latn'
inputs = tokenizer(
    '1741-ci ilin payızında Nadir s ̧ah Mu ̈s ̧ku ̈r lәzgilәrinә hu ̈cum edib onlara divan tutur.', 
    return_tensors='pt',
    padding=True,
    truncation=True,
    max_length=102
)

tokenizer.tgt_lang = 'lez_Cyrl'
tokenizer.batch_decode(
    model.generate(
        **inputs,
        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tokenizer.tgt_lang),
        max_new_tokens=int(32 + 3 * inputs.input_ids.shape[1]),
        num_beams=5
    ),
    skip_special_tokens=True
)

Quality

BLEU score

BLEU All Bible Quran Qusar
lez-az 26.14 24.21 30.77 25.85
az-lez 22.89 20.27 27.29 23.66
lez-ru 29.48 27.61 41.42 21.35*
ru-lez 24.25 22.10 31.78 20.31*
ru-az 31.65 25.73 32.93 41.10*
az-ru 33.63 28.78 36.83 40.46*

ChrF score

ChrF++ All Bible Quran Qusar
lez2az 48.62 47.17 53.95 47.02
az2lez 48.37 46.19 53.65 47.61
lez2ru 48.74 47.76 59.33 41.85*
ru2lez 49.55 47.95 57.49 45.16*
ru2az 54.97 49.46 55.50 63.62*
az2ru 54.71 49.21 56.32 62.54*

Random examples of translation from Russian to Lezgian:

Russian (source) Lezgian (target) Comment
Футбольная ассоциации Англии рассчитывала провести финал кубка на перестроенном стадионе "Уэмбли" Англиядин футболдин командадик цӀийи кьилелай эцигай "Уэмбли" стадионда кубокдин финал кьиле тухудай фикир кьуна "Association" translated as "team"
На одиннадцатый день рождения Гарри узнаёт, что является волшебником, и ему уготовано место в школе волшебства "Хогвартс" ЦӀуд лагьай юкъуз Гарриди вич суьгьуьрчи тирди винел акъудна ва адал "Хогварц" суьгьуьрчивилин мектебда чка гьазурна. "On eleven's bithday" translated as "On tenth day"
В 1960-х годах Советский Союз развивал стратегические ракетные вооружения, в то же время США делали ставку на стратегическую авиацию. 1960-йисара СССР-ди стратегиядин ракетдин яракьар вилик тухвана, гьакӀни АСШ-ди стратегиядин авиациядин хиве кьунай.

Citation

If you use that results in your research, please cite our paper:

@misc{asvarov2024neuralmachinetranslationlezgian,
      title={Neural machine translation system for Lezgian, Russian and Azerbaijani languages}, 
      author={Alidar Asvarov and Andrey Grabovoy},
      year={2024},
      eprint={2410.05472},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.05472}, 
}