LLM Technical Report - a zk67 Collection

zk67 's Collections

LLM Reasoning Papers

LLM Technical Report

LLM Post Training

LLM Technical Report

updated 10 days ago

Qwen2.5-Coder Technical Report

Paper • 2409.12186 • Published Sep 18 • 125
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

Paper • 2409.12122 • Published Sep 18 • 1
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7 • 13
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Paper • 2402.03300 • Published Feb 5 • 69
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25 • 46
The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31 • 105
DataComp-LM: In search of the next generation of training sets for language models

Paper • 2406.11794 • Published Jun 17 • 48

Note Apple DCLM
Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 157

Note Mistral's MoE Model
Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 47

Note Mistral's 7B Model
Gemma: Open Models Based on Gemini Research and Technology

Paper • 2403.08295 • Published Mar 13 • 47

Note Google DeepMind Gemma Team
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Paper • 2403.05530 • Published Mar 8 • 59

Note Google Gemini 1.5
Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Paper • 2112.11446 • Published Dec 8, 2021 • 1

Note DeepMind Gopher Model
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 11

Note OpenAI GPT-3
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 13

Note Meta LLaMa
Evaluating Large Language Models Trained on Code

Paper • 2107.03374 • Published Jul 7, 2021 • 6

Note OpenAI-CodeX
Pixtral 12B

Paper • 2410.07073 • Published 29 days ago • 59
Training Compute-Optimal Large Language Models

Paper • 2203.15556 • Published Mar 29, 2022 • 10

Note Chinchilla-DeepMind-2022.3 we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled.
Training language models to follow instructions with human feedback

Paper • 2203.02155 • Published Mar 4, 2022 • 15

Note OpenAI-InstructGPT/ChatGPT-2022.3
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5 • 40

Note DeepSeek-2024.1
GPT-4o System Card

Paper • 2410.21276 • Published 13 days ago • 76