2025 LLM Papers on Hugging Face with Japanese Memos

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 9 days ago • 91

Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。

ProgCo: Program Helps Self-Correction of Large Language Models

Paper • 2501.01264 • Published 8 days ago • 24

Note Program-driven Self-Correction (プログラム駆動型自己修正手法)（ProgCo）を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Paper • 2501.01957 • Published 7 days ago • 32

Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Paper • 2501.03226 • Published 4 days ago • 32

Note ステップレベルのインコンテキスト学習を提案従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。図はFigure 2, https://arxiv.org/pdf/2501.03226

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Paper • 2501.02955 • Published 4 days ago • 37

Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満だった

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Paper • 2501.03895 • Published 3 days ago • 38

Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル

Cosmos World Foundation Model Platform for Physical AI

Paper • 2501.03575 • Published 4 days ago • 52

Note 世界モデルを構築できるプラットフォーム（物理的な現象を模倣する高品質な動画生成可能）

Agent Laboratory: Using LLM Agents as Research Assistants

Paper • 2501.04227 • Published 3 days ago • 56

Note 文献レビュー、実験、報告書作成等、包括的な研究成果を支援。AI Scientistなどとは異なり、研究者が自身のアイデアを実現するための支援を行うことが目的。研究コストを84%削減。

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Paper • 2501.04682 • Published 2 days ago • 61

Note Meta Chain-of-Thought（Meta-CoT）推論過程を明示的にモデル化し、プロセス監視や合成データ生成を行うことでCoTの精度を向上