Garin K's picture

120

Garin K

gnbk

·

AI & ML interests

None yet

Organizations

None yet

gnbk's activity

upvoted 20 papers 4 months ago

Learning Vision from Models Rivals Learning Vision from Data

Paper • 2312.17742 • Published Dec 28, 2023 • 15

Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models

Paper • 2312.17661 • Published Dec 29, 2023 • 13

Boosting Large Language Model for Speech Synthesis: An Empirical Study

Paper • 2401.00246 • Published Dec 30, 2023 • 10

A Comprehensive Study of Knowledge Editing for Large Language Models

Paper • 2401.01286 • Published Jan 2 • 16

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 181

A Vision Check-up for Language Models

Paper • 2401.01862 • Published Jan 3 • 9

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

Paper • 2401.01974 • Published Jan 3 • 5

LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

Paper • 2401.02330 • Published Jan 4 • 14

Denoising Vision Transformers

Paper • 2401.02957 • Published Jan 5 • 28

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Paper • 2401.03506 • Published Jan 7 • 13

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

Paper • 2401.04092 • Published Jan 8 • 21

Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 159

Jump Cut Smoothing for Talking Heads

Paper • 2401.04718 • Published Jan 9 • 18

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

Paper • 2401.05314 • Published Jan 10 • 9

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

Paper • 2401.05252 • Published Jan 10 • 47

Distilling Vision-Language Models on Millions of Videos

Paper • 2401.06129 • Published Jan 11 • 15

Improving fine-grained understanding in image-text pre-training

Paper • 2401.09865 • Published Jan 18 • 16

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

Paper • 2401.09603 • Published Nov 30, 2023 • 16

Understanding Video Transformers via Universal Concept Discovery

Paper • 2401.10831 • Published Jan 19 • 8

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Paper • 2401.10774 • Published Jan 19 • 54