토크나이저 테스트 [한글 깨짐]
#1
by
richard-park
- opened
토크나이저 테스트 방법을 알려 줄 수 있을 까요?
한글이 깨저서 나옵니다.
from transformers import AutoTokenizer, AutoModelForCausalLM
from tokenizers import Tokenizer
base_model = "saltlux/Ko-Llama3-Luxia-8B"
model = AutoModelForCausalLM.from_pretrained(base_model)
tokenizer = AutoTokenizer.from_pretrained(base_model)
output = tokenizer("나는 아침을 먹었다")
output.tokens()
['ëĤĺëĬĶ', 'ĠìķĦ침', 'ìĿĦ', 'Ġ먹', 'ìĹĪëĭ¤']
안녕하세요.
한글이 깨지는 것이 아니라, Byte-level BPE를 사용하여 text를 byte의 sequence로 처리하기에 다음과 같은 토큰들의 결과가 나오는 것 입니다.
해당 출력 토큰의 'input_ids' 값을 tokenizer.decode(string) 해주시면 해당 결과를 확인하실 수 있습니다.
>>> from transformers import AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("saltlux/Ko-Llama3-Luxia-8B")
>>> [tokenizer.decode([id]) for id in tokenizer.encode("나는 아침을 먹었다")]
['나는', ' 아침', '을', ' 먹', '었다']
위와 같이 확인할 수 있습니다.
고맙습니다.
염치 불구하고 하나 더 부탁 드립니다.
라마3 토크나이저 한국어 학습을 시키고 싶은 데, AI Hub/modu data 10G 정도를 정리해서 학습을 했는 데, 토크나이저 결과가 동일합니다.
방법은 허깅페이스 토크나이저 아래 문서에 나와 있는 대로 수행했습니다.
https://huggingface.co/learn/nlp-course/chapter6/2
고맙습니다.