seanghay
/

xlm-roberta-khmer-32k-tokenizer

Inference Endpoints

Model card Files Files and versions Community

xlm-roberta-khmer-32k-tokenizer / README.md

seanghay's picture

Update README.md

95d936b verified 4 months ago

|

history blame contribute delete

310 Bytes

	---
	library_name: transformers
	tags: []
	---

	XLM Roberta Tokenizer trained with 162M tokens of Khmer text.

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("seanghay/xlm-roberta-khmer-32k-tokenizer")
	tokenizer.tokenize("សួស្ដីកម្ពុជា!")
	```