I can't reproduce the kobest_hellaswag
#2
by
Woncheol
- opened
As I tried to reproduce the polyglot evaluation, kobest_hellaswag does not match, although other datasets(kobest_copa, wic, boolq) match well.
Is there a problem or the kobest_hellaswage data has been changed?
์ ๋ skt/kogpt-trinity-1.2b-v0.5
๋ชจ๋ธ์ lm-evaluation-harness
๋ก ํ๊ฐํด๋ณด์์ผ๋, ์ ์ฌํ๊ฒ HellaSwag์ WiC ํ์คํฌ์์ ์์ดํ ์ค์ฝ์ด๊ฐ ๋์์ต๋๋ค. (5-shot / F1 Score ๊ธฐ์ค์ผ๋ก) HellaSwag์ WiC๋ ์๋ฌธ์์ ๊ฐ๊ฐ 0.5272, 0.4313์ ์ ๋ฐ์๋ค๊ณ ํ์ง๋ง, ์ ๊ฐ ํ
์คํธํ ๊ฒฐ๊ณผ๋ก๋ 0.3999์ 0.3953๋ก ํฐ ์ฐจ์ด๊ฐ ๋ฌ์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ค์ ๋ธ๋ก๊ทธ ํฌ์คํธ์ ์ ์ด๋์์ต๋๋ค.