yuyijiong
/

Qwen-14b-chat-yarn-32k

@@ -28,29 +28,20 @@ pipeline_tag: text-generation
 <br>
 # LongBench测试结果
-### LongBench的passage_retrieval_zh的评测结果
-| 模型                           | 得分 (acc)   |
-|------------------------------|------------|
-| **Qwen-14b-chat-yarn-32k**   | **0.94**   |
-| gpt-3.5-turbo-16k            | 0.81       |
-| chatglm3-32k                 | 0.725      |
-| Qwen-14b-chat                | 0.525      |
-| Qwen-14b-chat-32k-lora       | 0.34       |
-| **Qwen-7b-chat-yarn-32k**    | **0.325**  |
-| Qwen-7b-chat                 | 0.26       |
-| LongAlpaca-7b-32k-chinese-v2 | 0.12       |
-| CausalLM-14b                 | 0.086      |
-###  LongBench的passage_retrieval_en的评测结果
-| 模型                          | 得分 (acc)   |
-|-----------------------------|------------|
-| **Qwen-14b-chat-yarn-32k**  | **0.945**  |
-| chatglm3-32k                | 0.815      |
-| gpt-3.5-turbo-16k           | 0.88       |
-| **Qwen-7b-chat-yarn-32k**   | **0.47**   |
-| Qwen-14b-chat               | 0.24       |
-| Qwen-7b-chat                | 0.235      |
 Qwen-14b-chat-yarn-32k经过微调后，在多文档问答（或检索）任务上提升非常显著，大幅领先其他同规模的模型。

 <br>
 # LongBench测试结果
+### LongBench的passage_retrieval的评测结果
+| 模型                         | 准确率 （中文）  | 准确率 （英文） |
+|-----------------------------|-----------|----------|
+| **Qwen-14b-chat-yarn-32k**  | **0.94**  | **0.945** |
+| **Qwen-7b-chat-yarn-32k**   | **0.325** | **0.47** |
+| gpt-3.5-turbo-16k           | 0.81      | 0.88     |
+| chatglm3-32k                | 0.725     | 0.815    |
+| Qwen-14b-chat               | 0.525     | 0.24     |
+| Qwen-14b-chat-32k-lora      | 0.34      | \        |
+| Qwen-7b-chat                | 0.26      | 0.235    |
+| LongAlpaca-7b-32k-chinese-v2 | 0.12      | \        |
+| CausalLM-14b                | 0.086     | \        |
 Qwen-14b-chat-yarn-32k经过微调后，在多文档问答（或检索）任务上提升非常显著，大幅领先其他同规模的模型。

README_en.md CHANGED Viewed

@@ -26,30 +26,19 @@ pipeline_tag: text-generation
 * During inference, the model can give high-accuracy answers without specially designed prompts
 # Evaluation results in LongBench
-### Evaluation results for passage_retrieval_zh in LongBench
-| Models                       | Accuracy    |
-|------------------------------|-------------|
-| **Qwen-14b-chat-yarn-32k**   | **0.94**    |
-| gpt-3.5-turbo-16k            | 0.81        |
-| chatglm3-32k                 | 0.725       |
-| Qwen-14b-chat                | 0.525       |
-| Qwen-14b-chat-32k-lora       | 0.34        |
-| **Qwen-7b-chat-yarn-32k**    | **0.325**   |
-| Qwen-7b-chat                 | 0.26        |
-| LongAlpaca-7b-32k-chinese-v2 | 0.12        |
-| CausalLM-14b                 | 0.086       |
-###  Evaluation results for passage_retrieval_en in LongBench
-| Models                           | Accuracy      |
-|----------------------------------|---------------|
-| **Qwen-14b-chat-yarn-32k**       | **0.945**     |
-| chatglm3-32k                     | 0.815         |
-| gpt-3.5-turbo-16k                | 0.88          |
-| **Qwen-7b-chat-yarn-32k**        | **0.47**      |
-| Qwen-14b-chat                    | 0.24          |
-| Qwen-7b-chat                     | 0.235         |
 Qwen-14b-chat-yarn-32k has shown significant improvement in multi-document question-answering (or retrieval) tasks and outperforms other models of similar scale.

 * During inference, the model can give high-accuracy answers without specially designed prompts
 # Evaluation results in LongBench
+### Evaluation results for passage_retrieval in LongBench
+| Model                        | Accuracy (zh) | Accuracy (en) |
+|------------------------------|---------------|---------------|
+| **Qwen-14b-chat-yarn-32k**   | **0.94**      | **0.945**     |
+| **Qwen-7b-chat-yarn-32k**    | **0.325**     | **0.47**      |
+| gpt-3.5-turbo-16k            | 0.81          | 0.88          |
+| chatglm3-32k                 | 0.725         | 0.815         |
+| Qwen-14b-chat                | 0.525         | 0.24          |
+| Qwen-14b-chat-32k-lora       | 0.34          | \             |
+| Qwen-7b-chat                 | 0.26          | 0.235         |
+| LongAlpaca-7b-32k-chinese-v2 | 0.12          | \             |
+| CausalLM-14b                 | 0.086         | \             |
 Qwen-14b-chat-yarn-32k has shown significant improvement in multi-document question-answering (or retrieval) tasks and outperforms other models of similar scale.

大海捞针50k.png CHANGED Viewed