dataset,prompt,metric,value
xnli_ar,GPT-3 style_arht,accuracy,0.4457831325301205
xnli_ar,MNLI crowdsource_arht,accuracy,0.3461847389558233
xnli_ar,can we infer_arht,accuracy,0.4807228915662651
xnli_ar,guaranteed/possible/impossible_arht,accuracy,0.41847389558232934
xnli_ar,justified in saying_arht,accuracy,0.40200803212851405
xnli_ar,median,accuracy,0.41847389558232934
xnli_es,GPT-3 style_esht,accuracy,0.4875502008032129
xnli_es,MNLI crowdsource_esht,accuracy,0.3333333333333333
xnli_es,can we infer_esht,accuracy,0.3333333333333333
xnli_es,guaranteed/possible/impossible_esht,accuracy,0.48714859437751
xnli_es,justified in saying_esht,accuracy,0.3333333333333333
xnli_es,median,accuracy,0.3333333333333333
xnli_fr,GPT-3 style_frht,accuracy,0.5028112449799197
xnli_fr,MNLI crowdsource_frht,accuracy,0.3542168674698795
xnli_fr,can we infer_frht,accuracy,0.46546184738955826
xnli_fr,guaranteed/possible/impossible_frht,accuracy,0.3887550200803213
xnli_fr,justified in saying_frht,accuracy,0.5321285140562249
xnli_fr,median,accuracy,0.46546184738955826
xnli_hi,GPT-3 style_hiht,accuracy,0.3333333333333333
xnli_hi,MNLI crowdsource_hiht,accuracy,0.42610441767068274
xnli_hi,can we infer_hiht,accuracy,0.40562248995983935
xnli_hi,guaranteed/possible/impossible_hiht,accuracy,0.3485943775100402
xnli_hi,justified in saying_hiht,accuracy,0.41767068273092367
xnli_hi,median,accuracy,0.40562248995983935
xnli_sw,GPT-3 style_swht,accuracy,0.348995983935743
xnli_sw,MNLI crowdsource_swht,accuracy,0.3333333333333333
xnli_sw,can we infer_swht,accuracy,0.35943775100401604
xnli_sw,guaranteed/possible/impossible_swht,accuracy,0.3586345381526104
xnli_sw,justified in saying_swht,accuracy,0.3570281124497992
xnli_sw,median,accuracy,0.3570281124497992
xnli_ur,GPT-3 style_urht,accuracy,0.41767068273092367
xnli_ur,MNLI crowdsource_urht,accuracy,0.342570281124498
xnli_ur,can we infer_urht,accuracy,0.3337349397590361
xnli_ur,guaranteed/possible/impossible_urht,accuracy,0.3963855421686747
xnli_ur,justified in saying_urht,accuracy,0.3365461847389558
xnli_ur,median,accuracy,0.342570281124498
xnli_vi,GPT-3 style_viht,accuracy,0.4759036144578313
xnli_vi,MNLI crowdsource_viht,accuracy,0.38835341365461845
xnli_vi,can we infer_viht,accuracy,0.41244979919678715
xnli_vi,guaranteed/possible/impossible_viht,accuracy,0.41445783132530123
xnli_vi,justified in saying_viht,accuracy,0.40401606425702813
xnli_vi,median,accuracy,0.41244979919678715
xnli_zh,GPT-3 style_zhht,accuracy,0.44096385542168676
xnli_zh,MNLI crowdsource_zhht,accuracy,0.35943775100401604
xnli_zh,can we infer_zhht,accuracy,0.351004016064257
xnli_zh,guaranteed/possible/impossible_zhht,accuracy,0.3526104417670683
xnli_zh,justified in saying_zhht,accuracy,0.3538152610441767
xnli_zh,median,accuracy,0.3538152610441767
multiple,average,multiple,0.38609437751004017