Chrislu commited on
Commit
33ace7a
1 Parent(s): 4da61c8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -8
README.md CHANGED
@@ -29,13 +29,14 @@ chuxin-embedding 是专为增强中文文本检索能力而设计的嵌入模型
29
  - rerank模型对(query,message)评分,舍弃pos中的负例,neg中的正例
30
 
31
  ## Collect more data for retrieval-type tasks
32
- 1. ChineseWebText, oasis, oscar, SkyPile, wudao 预训练阶段
33
- 2. MTP 微调阶段
34
- 3. BGE-LARGE-zh data
35
- 4. PEG data
36
- 5. BGE-M3 data
37
- 6. miracl/miracl
38
- 7. FreedomIntelligence/Huatuo26M-Lite
 
39
 
40
  ## Performance
41
  **C_MTEB RETRIEVAL**
@@ -52,7 +53,7 @@ chuxin-embedding 是专为增强中文文本检索能力而设计的嵌入模型
52
  | :-------------------: | :---------:| :---------: | :-------: | :------------: | :-----------: | :-----------: | :----------: |
53
  | bge-m3 | bge-reranker-large | 64.53 | 76.11 | 67.8 | 63.25 | 62.9 | 52.61 |
54
  | gte-Qwen2-7B-instruct |bge-reranker-large | 63.39 | 78.09 | 67.56 | 63.14 | 61.12 | 47.02 |
55
- | **chuxin-embedding** | bge-reranker-large | **64.7** |76.14 | 68.34 | 64.09 | 63.03 | 51.89 |
56
 
57
 
58
  ## Generate Embedding for text
 
29
  - rerank模型对(query,message)评分,舍弃pos中的负例,neg中的正例
30
 
31
  ## Collect more data for retrieval-type tasks
32
+ 1. 预训练数据
33
+ - ChineseWebText、 oasis、 oscar、 SkyPile、 wudao
34
+ 2. 微调数据
35
+ - MTP 、webqa、nlpcc、csl、bq、atec、ccks
36
+ 3. 精调数据
37
+ - BGE-M3 、Huatuo26M-Lite 、covid ...
38
+ - LLM 合成(BGE-M3 、Huatuo26M-Lite 、covid、wudao、wanjuan_news、mnbvc_news_wiki、mldr、medical QA...)
39
+
40
 
41
  ## Performance
42
  **C_MTEB RETRIEVAL**
 
53
  | :-------------------: | :---------:| :---------: | :-------: | :------------: | :-----------: | :-----------: | :----------: |
54
  | bge-m3 | bge-reranker-large | 64.53 | 76.11 | 67.8 | 63.25 | 62.9 | 52.61 |
55
  | gte-Qwen2-7B-instruct |bge-reranker-large | 63.39 | 78.09 | 67.56 | 63.14 | 61.12 | 47.02 |
56
+ | **chuxin-embedding(当前)** | bge-reranker-large | **64.7** |76.14 | 68.34 | 64.09 | 63.03 | 51.89 |
57
 
58
 
59
  ## Generate Embedding for text