16k上下文什么时候出?

#37
by jackies - opened

16k上下文什么时候出?

修改 config.json:

"rope_scaling": {
"type": "dynamic",
"factor": 4.0
},

即可获得32k

修改 config.json:

"rope_scaling": {
"type": "dynamic",
"factor": 4.0
},

即可获得32k

32K单卡4090提示kv cache不足。怎么增加kv cache?或者说要改成16K,配置中参数如何减少?

那应该是推理引擎的事了,跟模型无关。

Sign up or log in to comment