6 114 169

Inui

Norm

https://normxu.github.io/

AI & ML interests

Video Diffusion; Large Language Model; Object Detection; OCR

Recent Activity

upvoted a paper about 9 hours ago

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

upvoted a paper 4 days ago

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

updated a collection 7 days ago

Image / Video Gen

View all activity

Organizations

Norm's activity

upvoted a paper about 9 hours ago

Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Paper • 2410.10792 • Published Oct 14 • 27

upvoted a paper 4 days ago

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Paper • 2411.11922 • Published 15 days ago • 17

upvoted a paper 7 days ago

OminiControl: Minimal and Universal Control for Diffusion Transformer

Paper • 2411.15098 • Published 10 days ago • 41

upvoted a paper 8 days ago

TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Paper • 2411.15124 • Published 10 days ago • 55

upvoted a paper 10 days ago

Multimodal Autoregressive Pre-training of Large Vision Encoders

Paper • 2411.14402 • Published 11 days ago • 39

upvoted a paper 18 days ago

BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

Paper • 2411.07461 • Published 21 days ago • 21

upvoted a paper 22 days ago

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Paper • 2411.04928 • Published 25 days ago • 48

upvoted a paper 29 days ago

In-Context LoRA for Diffusion Transformers

Paper • 2410.23775 • Published Oct 31 • 10

upvoted 2 papers about 1 month ago

GPT-4o System Card

Paper • 2410.21276 • Published Oct 25 • 80

Movie Gen: A Cast of Media Foundation Models

Paper • 2410.13720 • Published Oct 17 • 89

upvoted a paper about 2 months ago

SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers

Paper • 2401.08740 • Published Jan 16 • 12

upvoted a collection about 2 months ago

LLaVA-Video

Collection

Models focus on video understanding (previously known as LLaVA-NeXT-Video). • 6 items • Updated Oct 5 • 55

upvoted a paper about 2 months ago

Video Instruction Tuning With Synthetic Data

Paper • 2410.02713 • Published Oct 3 • 37

upvoted 2 papers 2 months ago

PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Paper • 2409.18964 • Published Sep 27 • 25

Improvements to SDXL in NovelAI Diffusion V3

Paper • 2409.15997 • Published Sep 24 • 11

upvoted a collection 2 months ago

Molmo

Collection

Artifacts for open multimodal language models. • 5 items • Updated 5 days ago • 278

upvoted a paper 2 months ago

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

Paper • 2409.16160 • Published Sep 24 • 32

upvoted 3 papers 3 months ago

OSV: One Step is Enough for High-Quality Image to Video Generation

Paper • 2409.11367 • Published Sep 17 • 13

Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models

Paper • 2409.10695 • Published Sep 16 • 2

PiTe: Pixel-Temporal Alignment for Large Video-Language Model

Paper • 2409.07239 • Published Sep 11 • 11