OrionStarAI
/

Orion-14B-Chat-Int4

@@ -36,26 +36,34 @@
 # 1. 模型介绍
-- Orion-14B-Chat-Int4是由Orion-14B-Chat模型使用awq量化而来，其模型大小缩小70%，推理速度提升30%，性能损失小于1%。
 - Orion-14B系列大模型有以下几个特点：
   - 基座20B参数级别大模型综合评测效果表现优异
   - 多语言能力强，在日语、韩语测试集上显著领先
   - 微调模型适应性强，在人类标注盲测中，表现突出
-  - 长上下文版本支持超长文本，长达200k token
   - 量化版本模型大小缩小70%，推理速度提升30%，性能损失小于1%
-<div align="center">
-  <img src="./assets/imgs/model_cap_zh.png" alt="model_cap" width="50%" />
-</div>
 - 具体而言，Orion-14B系列大语言模型包含:
-  - **Orion-14B-Base:**  基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
   - **Orion-14B-Chat:**  基于高质量语料库微调的对话类模型，旨在为大模型社区提供更好的用户交互体验。
   - **Orion-14B-LongChat:**  在200k token长度上效果优异，最长可支持可达320k，在长文本评估集上性能比肩专有模型。
   - **Orion-14B-Chat-RAG:**  在一个定制的检索增强生成数据集上进行微调的聊天模型，在检索增强生成任务中取得了卓越的性能。
   - **Orion-14B-Chat-Plugin:**  专门针对插件和函数调用任务定制的聊天模型，非常适用于使用代理的相关场景，其中大语言模型充当插件和函数调用系统。
-  - **Orion-14B-Base-Int4:**  一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%，同时提高了推理速度30%，仅引入了1%的最小性能损失。
-  - **Orion-14B-Chat-Int4:**  一个使用4位整数进行量化的对话模型。
 # 2. 下载路径
@@ -153,6 +161,7 @@
 | Llama2-13B-Chat      |   7.10   |   6.20   |   6.65   |
 | InternLM-20B-Chat    |   7.03   |   5.93   |   6.48   |
 | **Orion-14B-Chat**   | **7.68** | **7.07** | **7.37** |
 \*这里评测使用vllm进行推理
 ### 3.2.2. 对话模型AlignBench主观评估
@@ -163,6 +172,7 @@
 | Llama2-13B-Chat    |   3.05   |   3.79   |   5.43   |   4.40   |   6.76   |   6.63   |   6.99   |   5.65   |   4.70   |
 | InternLM-20B-Chat  |   3.39   |   3.92   |   5.96   |   5.50   | **7.18** |   6.19   |   6.49   |   6.22   |   4.96   |
 | **Orion-14B-Chat** |   4.00   |   4.24   |   6.18   | **6.57** |   7.16   | **7.36** | **7.16** | **6.99** |   5.51   |
 \*这里评测使用vllm进行推理
 ## 3.3. 长上下文模型Orion-14B-LongChat评估

 # 1. 模型介绍
+- Orion-14B-Base是一个具有140亿参数的多语种大模型，该模型在一个包含2.5万亿token的多样化数据集上进行了训练，涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中，Orion-14B系列模型表现优异，多项指标显著超越同等参数基本的其他模型。具体技术细节请参考[技术报告](https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf)。
 - Orion-14B系列大模型有以下几个特点：
   - 基座20B参数级别大模型综合评测效果表现优异
   - 多语言能力强，在日语、韩语测试集上显著领先
   - 微调模型适应性强，在人类标注盲测中，表现突出
+  - 长上下文版本支持超长文本，在200k token长度上效果优异，最长可支持可达320k
   - 量化版本模型大小缩小70%，推理速度提升30%，性能损失小于1%
+ <table style="border-collapse: collapse; width: 100%;">
+   <tr>
+     <td style="border: none; padding: 10px; box-sizing: border-box;">
+       <img src="./assets/imgs/opencompass_zh.png" alt="opencompass" style="width: 100%; height: auto;">
+     </td>
+     <td style="border: none; padding: 10px; box-sizing: border-box;">
+       <img src="./assets/imgs/model_cap_zh.png" alt="modelcap" style="width: 100%; height: auto;">
+     </td>
+   </tr>
+ </table>
 - 具体而言，Orion-14B系列大语言模型包含:
+  - **Orion-14B-Base:**  基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
   - **Orion-14B-Chat:**  基于高质量语料库微调的对话类模型，旨在为大模型社区提供更好的用户交互体验。
   - **Orion-14B-LongChat:**  在200k token长度上效果优异，最长可支持可达320k，在长文本评估集上性能比肩专有模型。
   - **Orion-14B-Chat-RAG:**  在一个定制的检索增强生成数据集上进行微调的聊天模型，在检索增强生成任务中取得了卓越的性能。
   - **Orion-14B-Chat-Plugin:**  专门针对插件和函数调用任务定制的聊天模型，非常适用于使用代理的相关场景，其中大语言模型充当插件和函数调用系统。
+  - **Orion-14B-Base-Int4:**  一个使用int4进行量化的基座模型。它将模型大小显著减小了70%，同时提高了推理速度30%，仅引入了1%的最小性能损失。
+  - **Orion-14B-Chat-Int4:**  一个使用int4进行量化的对话模型。
 # 2. 下载路径
 | Llama2-13B-Chat      |   7.10   |   6.20   |   6.65   |
 | InternLM-20B-Chat    |   7.03   |   5.93   |   6.48   |
 | **Orion-14B-Chat**   | **7.68** | **7.07** | **7.37** |
 \*这里评测使用vllm进行推理
 ### 3.2.2. 对话模型AlignBench主观评估
 | Llama2-13B-Chat    |   3.05   |   3.79   |   5.43   |   4.40   |   6.76   |   6.63   |   6.99   |   5.65   |   4.70   |
 | InternLM-20B-Chat  |   3.39   |   3.92   |   5.96   |   5.50   | **7.18** |   6.19   |   6.49   |   6.22   |   4.96   |
 | **Orion-14B-Chat** |   4.00   |   4.24   |   6.18   | **6.57** |   7.16   | **7.36** | **7.16** | **6.99** |   5.51   |
 \*这里评测使用vllm进行推理
 ## 3.3. 长上下文模型Orion-14B-LongChat评估