토크나이저 테스트 [한글 깨짐]

#1
by richard-park - opened

토크나이저 테스트 방법을 알려 줄 수 있을 까요?
한글이 깨저서 나옵니다.

from transformers import AutoTokenizer, AutoModelForCausalLM
from tokenizers import Tokenizer

base_model = "saltlux/Ko-Llama3-Luxia-8B"

model = AutoModelForCausalLM.from_pretrained(base_model)

tokenizer = AutoTokenizer.from_pretrained(base_model)

output = tokenizer("나는 아침을 먹었다")
output.tokens()

['ëĤĺëĬĶ', 'ĠìķĦ침', 'ìĿĦ', 'Ġ먹', 'ìĹĪëĭ¤']

saltlux org

안녕하세요.
한글이 깨지는 것이 아니라, Byte-level BPE를 사용하여 text를 byte의 sequence로 처리하기에 다음과 같은 토큰들의 결과가 나오는 것 입니다.
해당 출력 토큰의 'input_ids' 값을 tokenizer.decode(string) 해주시면 해당 결과를 확인하실 수 있습니다.

제가 초보라서 잘 안 되네요.

예시.png

예시처럼 코드가 나오면 되는 데, 부탁드립니다.

>>> from transformers import AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("saltlux/Ko-Llama3-Luxia-8B")
>>> [tokenizer.decode([id]) for id in tokenizer.encode("나는 아침을 먹었다")]
['나는', ' 아침', '을', ' 먹', '었다']

위와 같이 확인할 수 있습니다.

고맙습니다.

염치 불구하고 하나 더 부탁 드립니다.
라마3 토크나이저 한국어 학습을 시키고 싶은 데, AI Hub/modu data 10G 정도를 정리해서 학습을 했는 데, 토크나이저 결과가 동일합니다.

방법은 허깅페이스 토크나이저 아래 문서에 나와 있는 대로 수행했습니다.
https://huggingface.co/learn/nlp-course/chapter6/2

고맙습니다.

Sign up or log in to comment