Scaling Laws for Neural Language Models
Paper
•
2001.08361
•
Published
•
6
Note OpenAI 2020 Scaling Law-1
Note OpenAI 2020 Scaling Law-2
Note DeepMind 2022 Scaling Law-3 The Bitter Lesson. by Rich Sutton 2019 http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Note zhipu
Note 微软-phi-4-14B https://mp.weixin.qq.com/s/zFDvFrR1wtz5ZpdAk1mT7w 1. 关键 Token 搜索(Pivotal Token Search, PTS) PTS 方法 是 Phi-4 训练过程中的一大创新: 原理: 通过识别在生成过程中对答案正确性有重大影响的关键 Token,针对性地优化模型在这些 Token 上的预测。 优势: 提高训练效率: 将优化重点放在对结果影响最大的部分,事半功倍。 改善模型性能: 有助于模型在关键决策点上做出正确选择,提高整体输出质量。 2. 改进的直接偏好优化(DPO) DPO 方法: 直接使用偏好数据进行优化,使模型的输出更符合人类的偏好。 创新点: 结合 PTS: 在 DPO 中引入 PTS 生成的训练数据对,提高优化效果。 评估指标: 通过对模型在关键 Token 上的表现进行评估,更精确地衡量优化效果。