## `lyrallms` 能力矩阵 | |Attn方法| |MEMOPT模式| |KVCache精度| | |:----|:----|:----|:----|:----|:----|:----| | |Unfused|FlashAttn2|W4A16|W8A16|FP16|INT8| |LLaMA|✅|✅|✅|✅|✅|✅| |XVERSE|✅|✅|✅|✅|✅|✅| |Baichuan 1/2 (7B及13B)|✅|❌|✅|✅|✅|❌| |ChatGLM|✅|❌|❌|✅|✅|❌| |BELLE|✅|❌|❌|✅|✅|❌| ## `lyrallms` 使用 ### 校准 (Calibration) 参考`calibration`文件夹下的[README.md](./calibration/README.md) 。 ### Python转换及调用加速模型 #### LLaMA 参考`LyraLlamaPy`文件夹下的[README.md](./LyraLlamaPy/README.md) 。 #### Baichuan 参考`LyraBaichuanPy`文件夹下的[README.md](./LyraLlamaPy/README.md) 。