这个模型和llama2的关系和差异是啥
#1
by
songt
- opened
vocab是否做了中文的适配
是否做了中文的二次预训练、SFT
songt
changed discussion status to
closed
songt
changed discussion status to
open
扩充了接近6000个CJK字词。
为了尽可能保留模型原有知识,无二次预训练,基于 llama2-13b 进行 SFT,使用了 一百万样本数的多语言多轮对话数据集。
扩充了接近6000个CJK字词。
为了尽可能保留模型原有知识,无二次预训练,基于 llama2-13b 进行 SFT,使用了 一百万样本数的多语言多轮对话数据集。
这个信息挺重要的,希望可以放到model card或github上
@terrencefm 貌似我看config.json里面还是37k
不对,我看错了,加上了6k是这么多
楼主是说,扩充了此表但是没有在此pretrain吗?那resize embedding之后岂不是权重都是随机权重了?这应该很难直接sft吧
楼主是说,扩充了此表但是没有在此pretrain吗?那resize embedding之后岂不是权重都是随机权重了?这应该很难直接sft吧
我们在SFT过程中调整的token embedding,目前来看效果还行