Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

Papers - Multilingual - Encoders - Bytes

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Bytes - Dynamic Patch Sizes

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Dataset - Classification - Multitask - MMLU

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Dataset - Coding - MBPP

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Eval - Coding - Python

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Embeddings - Bytes - BPB - Larger Patches than BPE

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Dataset - Datacomp-LM

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Embeddings - Bytes - Tokenizer Free

MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

Paper • 2410.20771 • Published Oct 28, 2024 • 3
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Training - Text - Datasets - Coding - GitHub

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Papers - Text - Character Level Transformers

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 88

Previous
1
2
3
4
...
9
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs