2025 LLM Papers on Hugging Face with Japanese Memos
Paper • 2501.00958 • Published • 91Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。 上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。
ProgCo: Program Helps Self-Correction of Large Language Models
Paper • 2501.01264 • Published • 24Note Program-driven Self-Correction (プログラム駆動型自己修正手法)(ProgCo)を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Paper • 2501.01957 • Published • 32Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル 従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
Paper • 2501.03226 • Published • 32Note ステップレベルのインコンテキスト学習を提案 従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。 図はFigure 2, https://arxiv.org/pdf/2501.03226
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models
Paper • 2501.02955 • Published • 37Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満だった
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Paper • 2501.03895 • Published • 38Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル
Cosmos World Foundation Model Platform for Physical AI
Paper • 2501.03575 • Published • 52Note 世界モデルを構築できるプラットフォーム(物理的な現象を模倣する高品質な動画生成可能)
Agent Laboratory: Using LLM Agents as Research Assistants
Paper • 2501.04227 • Published • 56Note 文献レビュー、実験、報告書作成等、包括的な研究成果を支援。AI Scientistなどとは異なり、研究者が自身のアイデアを実現するための支援を行うことが目的。研究コストを84%削減。
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
Paper • 2501.04682 • Published • 61Note Meta Chain-of-Thought(Meta-CoT) 推論過程を明示的にモデル化し、プロセス監視や合成データ生成を行うことでCoTの精度を向上