Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

Papers - Training - Scaling - Bytes - BLT >= BPE Tokenizer

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Training - Scaling - Compute Optimal

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Attention - Flex Attention

https://pytorch.org/blog/flexattention/

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Embeddings - Bytes - BPB - Tokenzr Free Perplexity

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Embeddings - Bytes - Flops - Input Layer Lookup

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Training - Embeddings Model - Bytes - Entropy Model

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Attention - Bytes - Patch Cross Attention

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Attention - Bytes - MHA Cross Attention - Perceiver

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Embeddings - Text - Byte - Hash ngrams

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Papers - Attention - Block Causal

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 14 days ago • 76

Previous
1
2
3
4
5
...
8
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs