Efficient VLM via Image Token Compression - a kevin1020 Collection

kevin1020 's Collections

RAG

Inference Acceleration

Code Generation

Efficient Tuning

Token Compression

Efficient VLM via Image Token Compression

VLM

PEFT

ViT

Modular

Efficient VLM via Image Token Compression

updated Jul 26

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

Paper • 2403.06764 • Published Mar 11 • 25
TokenPacker: Efficient Visual Projector for Multimodal LLM

Paper • 2407.02392 • Published Jul 2 • 21
Efficient Inference of Vision Instruction-Following Models with Elastic Cache

Paper • 2407.18121 • Published Jul 25 • 15