这个模型和llama2的关系和差异是啥

by songt - opened Jul 26, 2023

songt

Jul 26, 2023

•

vocab是否做了中文的适配
是否做了中文的二次预训练、SFT

songt changed discussion status to closed Jul 26, 2023

songt changed discussion status to open Jul 26, 2023

OpenBuddy org Jul 28, 2023

扩充了接近6000个CJK字词。
为了尽可能保留模型原有知识，无二次预训练，基于 llama2-13b 进行 SFT，使用了一百万样本数的多语言多轮对话数据集。

songt

Jul 28, 2023

扩充了接近6000个CJK字词。
为了尽可能保留模型原有知识，无二次预训练，基于 llama2-13b 进行 SFT，使用了一百万样本数的多语言多轮对话数据集。

这个信息挺重要的，希望可以放到model card或github上

Jul 30, 2023

@terrencefm 貌似我看config.json里面还是37k

Jul 30, 2023

不对，我看错了，加上了6k是这么多

Jul 30, 2023

楼主是说，扩充了此表但是没有在此pretrain吗？那resize embedding之后岂不是权重都是随机权重了？这应该很难直接sft吧

ff670

OpenBuddy org Jul 30, 2023

楼主是说，扩充了此表但是没有在此pretrain吗？那resize embedding之后岂不是权重都是随机权重了？这应该很难直接sft吧

我们在SFT过程中调整的token embedding，目前来看效果还行

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment