|
--- |
|
datasets: |
|
- squad_it |
|
metrics: |
|
- squad |
|
language: |
|
- it |
|
license: apache-2.0 |
|
tags: |
|
- italian |
|
- squad_it |
|
- question-answering |
|
widget: |
|
- text: Qual è il soprannome di Vasco Rossi? |
|
context: >- |
|
Vasco Rossi, noto anche semplicemente come Vasco e in passato con |
|
l'appellativo Blasco (Zocca, 7 febbraio 1952), è un cantautore italiano |
|
- text: >- |
|
La foresta pluviale amazzonica è diventata per lo più una foresta interna |
|
intorno a quale evento globale? |
|
context: >- |
|
In seguito all' evento di estinzione del Cretaceo-Paleogene, l' estinzione |
|
dei dinosauri e il clima umido possono aver permesso alla foresta pluviale |
|
tropicale di diffondersi in tutto il continente. Dal 66-34 Mya, la foresta |
|
pluviale si estendeva fino a sud fino a 45°. Le fluttuazioni climatiche |
|
degli ultimi 34 milioni di anni hanno permesso alle regioni della savana di |
|
espandersi fino ai tropici. Durante l' Oligocene, ad esempio, la foresta |
|
pluviale ha attraversato una banda relativamente stretta. Si espandeva di |
|
nuovo durante il Miocene medio, poi si ritrasse ad una formazione |
|
prevalentemente interna all' ultimo massimo glaciale. Tuttavia, la foresta |
|
pluviale è riuscita ancora a prosperare durante questi periodi glaciali, |
|
consentendo la sopravvivenza e l' evoluzione di un' ampia varietà di specie. |
|
- text: >- |
|
Il Regno Unito e la Francia non hanno avuto interruzioni dell' |
|
approvvigionamento petrolifero in quanto non hanno consentito a quale paese |
|
di utilizzare il loro aeroporto? |
|
context: >- |
|
L' embargo non era uniforme in tutta Europa. Dei nove membri della Comunità |
|
Economica Europea (CEE), i Paesi Bassi hanno dovuto affrontare un embargo |
|
totale, il Regno Unito e la Francia hanno ricevuto forniture quasi |
|
ininterrotte (poichè si sono rifiutati di consentire all' America di |
|
utilizzare i loro aerodromi e le armi e forniture embargo sia agli arabi che |
|
agli israeliani), mentre gli altri sei hanno dovuto affrontare tagli |
|
parziali. Il Regno Unito era tradizionalmente un alleato di Israele, e il |
|
governo di Harold Wilson ha sostenuto gli israeliani durante la guerra dei |
|
sei giorni. Il suo successore, Ted Heath, ribaltò questa politica nel 1970, |
|
chiedendo a Israele di ritirarsi ai suoi confini prima del 1967. |
|
- context: >- |
|
Nel 1962, il grafico Paul Rand ridisegna il logo ABC nella sua forma più |
|
conosciuta (e attuale) con le lettere minuscole 'abc' racchiuse in un unico |
|
cerchio nero. Il nuovo logo esordisce in onda per le promozioni di ABC all' |
|
inizio della stagione 1963-64. Le lettere ricordano fortemente il carattere |
|
tipografico Bauhaus disegnato da Herbert Bayer negli anni Venti, ma |
|
condividono anche similitudini con diversi altri caratteri, come ITC Avant |
|
Garde e Horatio, e lo Chalet più simile. La semplicità del logo ha reso più |
|
facile la riprogettazione e la duplicazione, il che ha conferito un |
|
beneficio per ABC (soprattutto prima dell' avvento della computer grafica). |
|
text: Di quale carattere tipografico ricordano le lettere dell' iconico logo ABC? |
|
- context: >- |
|
La fotorespirazione può verificarsi quando la concentrazione di ossigeno è |
|
troppo elevata. Rubisco non è in grado di distinguere molto bene tra |
|
ossigeno e anidride carbonica, quindi può accidentalmente aggiungere O2 |
|
invece di CO2 a RuBP. Questo processo riduce l' efficienza della |
|
fotosintesi: consuma ATP e ossigeno, rilascia CO2 e non produce zucchero. |
|
Può sprecare fino alla metà del carbonio fissato dal ciclo di Calvin. |
|
Diversi meccanismi si sono evoluti in diversi lignaggi che aumentano la |
|
concentrazione di anidride carbonica rispetto all' ossigeno all' interno del |
|
cloroplasto, aumentando l' efficienza della fotosintesi. Questi meccanismi |
|
sono chiamati meccanismi di concentrazione dell' anidride carbonica, o CCM. |
|
Tra questi figurano il metabolismo degli acidi crassulaceanici, la |
|
fissazione del carbonio C4 e i pirenoidi. I cloroplasti negli impianti C4 |
|
sono notevoli in quanto presentano un chiaro dimorfismo cloroplastico. |
|
text: Che cosa può fare rubisco per errore? |
|
model-index: |
|
- name: electra-italian-xxl-cased-squad-it |
|
results: |
|
- task: |
|
type: question-answering |
|
name: Question Answering |
|
dataset: |
|
type: squad_it |
|
name: SQuAD-IT |
|
metrics: |
|
- type: exact-match |
|
value: 0.66 |
|
name: Test Exact Match |
|
- type: f1 |
|
value: 0.775 |
|
name: Test F1 |
|
train-eval-index: |
|
- config: default |
|
task: question-answering |
|
task_id: extractive_question_answering |
|
splits: |
|
eval_split: test |
|
col_mapping: |
|
context: context |
|
question: question |
|
answers.text: answers.text |
|
answers.answer_start: answers.answer_start |
|
pipeline_tag: question-answering |
|
library_name: transformers |
|
--- |
|
|
|
# electra-italian-xxl-cased-squad-it |
|
|
|
Electra model for (Extractive) Question Answering on Italian texts |
|
|
|
## Model description |
|
This model has been fine-tuned on [squad_it dataset](https://huggingface.co/datasets/squad_it), starting from the pre-trained model [dbmdz/electra-base-italian-xxl-cased-discriminator](https://huggingface.co/dbmdz/electra-base-italian-xxl-cased-discriminator). |
|
|
|
It can be used for [Extractive Q&A](https://huggingface.co/tasks/question-answering) on Italian texts. |
|
|
|
## Evaluation |
|
|
|
| Metric | Value | |
|
| ------ | --------- | |
|
| **EM** | **0.660** | |
|
| **F1** | **0.775** | |
|
|
|
[Evaluation notebook](https://github.com/anakin87/electra-italian-xxl-cased-squad-it/blob/main/evaluation.ipynb) |
|
|
|
## Usage in Transformers 🤗 |
|
Model checkpoints are available for usage in PyTorch. They can be used directly with pipelines as: |
|
|
|
```python |
|
from transformers import pipelines |
|
|
|
qa = pipeline('question-answering', model='anakin87/electra-italian-xxl-cased-squad-it') |
|
qa(question="Qual è il soprannome di Vasco Rossi?", context="Vasco Rossi, noto anche semplicemente come Vasco e in passato con l'appellativo Blasco (Zocca, 7 febbraio 1952), è un cantautore italiano") |
|
>>> {'score': 0.93, 'start': 80, 'end': 86, 'answer': 'Blasco'} |
|
``` |
|
## Usage in Haystack 🚀🚀🚀 |
|
|
|
With the [Haystack NLP framework](https://github.com/deepset-ai/haystack), you can use this model and create a scalable Question Answering system that works across millions of documents. |
|
|
|
For a complete walkthrough, see [this notebook](https://github.com/anakin87/electra-italian-xxl-cased-squad-it/blob/main/usage_in_haystack.ipynb). |
|
|
|
```python |
|
... |
|
print_answers(prediction, details="medium") |
|
|
|
>>> Query: Con chi ha parlato di vaccini il premier Mario Draghi? |
|
Answers: |
|
[ { 'answer': 'Von der Leyen', |
|
'context': " vaccino dell'azienda britannica. Durante la telefonata " |
|
'tra Draghi e Von der Leyen, la presidente della ' |
|
'Commissione Ue ha annunciato al presidente del', |
|
'score': 0.9663902521133423}, |
|
{ 'answer': 'Ursula Von der Leyen', |
|
'context': 'colloquio telefonico con la presidente della Commissione ' |
|
'europea Ursula Von der Leyen. Secondo fonti di Palazzo ' |
|
'Chigi, dalla conversazione è emerso ch', |
|
'score': 0.9063920974731445}, |
|
{ 'answer': 'Mario Draghi, ha tenuto un lungo discorso alla 76esima ' |
|
'Assemblea Generale delle Nazioni Unite', |
|
'context': 'Il presidente del Consiglio, Mario Draghi, ha tenuto un ' |
|
'lungo discorso alla 76esima Assemblea Generale delle ' |
|
'Nazioni Unite, nella notte italiana. Tant', |
|
'score': 0.5243796706199646}] |
|
``` |
|
|
|
## Comparison ⚖️ |
|
|
|
| Model | EM | F1 | Model size (PyTorch) | Architecture | |
|
|-----------------------------------------------------------|-------|-------|----------------------|------------------| |
|
| it5/it5-large-question-answering | 69.10 | 78.00 | 3.13 GB | encoder-decoder | |
|
| ***anakin87/electra-italian-xxl-cased-squad-it (this one)*** | *66.03* | *77.47* | *437 MB* | *encoder* | |
|
| it5/it5-base-question-answering | 66.30 | 76.10 | 990 MB | encoder-decoder | |
|
| it5/mt5-base-question-answering | 66.30 | 75.70 | 2.33 GB | encoder-decoder | |
|
| antoniocappiello/bert-base-italian-uncased-squad-it | 63.80 | 75.30 | 440 MB | encoder | |
|
| luigisaetta/squad_it_xxl_cased_hub1 | 63.95 | 75.27 | 440 MB | encoder | |
|
| it5/it5-efficient-small-el32-question-answering | 64.50 | 74.70 | 569 MB | encoder-decoder | |
|
| mrm8488/bert-italian-finedtuned-squadv1-it-alfa | 62.51 | 74.16 | 440 MB | encoder | |
|
| mrm8488/umberto-wikipedia-uncased-v1-finetuned-squadv1-it | 60.50 | 72.41 | 443 MB | encoder | |
|
| it5/it5-small-question-answering | 61.90 | 71.60 | 308 MB | encoder-decoder | |
|
| it5/mt5-small-question-answering | 56.00 | 66.00 | 1.2 GB | encoder-decoder | |
|
| DrQA-it trained on SQuAD-it | 56.10 | 65.90 | ? | ? | |
|
|
|
## Training details 🏋️ |
|
[Training notebook](https://github.com/anakin87/electra-italian-xxl-cased-squad-it/blob/main/training.ipynb) |
|
|
|
**Hyperparameters** |
|
- learning_rate: 2e-05 |
|
- batch_size: 8 |
|
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 |
|
- lr_scheduler_type: linear |
|
- num_epochs: 2 |
|
- mixed_precision_training: Native AMP |
|
|
|
> Created by [Stefano Fiorucci/anakin87](https://github.com/anakin87) |
|
> |
|
> Made with <span style="color: #e25555;">♥</span> in Italy |