16k上下文什么时候出?
修改 config.json:
"rope_scaling": { "type": "dynamic", "factor": 4.0 },
即可获得32k
修改 config.json: "rope_scaling": { "type": "dynamic", "factor": 4.0 }, 即可获得32k
32K单卡4090提示kv cache不足。怎么增加kv cache?或者说要改成16K,配置中参数如何减少?
那应该是推理引擎的事了,跟模型无关。
· Sign up or log in to comment