metadata

license: mit
base_model: xlm-roberta-base
tags:
  - generated_from_trainer
datasets:
  - xtreme
metrics:
  - f1
model-index:
  - name: multilingual-xlm-roberta-for-ner
    results:
      - task:
          name: Token Classification
          type: token-classification
        dataset:
          name: xtreme
          type: xtreme
          config: PAN-X.de
          split: validation
          args: PAN-X.de
        metrics:
          - name: F1
            type: f1
            value: 0.8607623700505596

multilingual-xlm-roberta-for-ner

This model is a fine-tuned version of xlm-roberta-base on the xtreme dataset. It achieves the following results on the evaluation set:

Loss: 0.1343
F1: 0.8608

How to use

You can use this model with Transformers pipeline for NER.

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("Tirendaz/roberta-base-NER")
model = AutoModelForTokenClassification.from_pretrained("Tirendaz/roberta-base-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 48
eval_batch_size: 48
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 3

Training results

Training Loss	Epoch	Step	Validation Loss	F1
No log	1.0	263	0.1627	0.8229
0.214	2.0	526	0.1410	0.8472
0.214	3.0	789	0.1343	0.8608

Framework versions

Transformers 4.33.0
Pytorch 2.0.0
Datasets 2.1.0
Tokenizers 0.13.3