Update README.md
Browse files
README.md
CHANGED
@@ -29,13 +29,14 @@ chuxin-embedding 是专为增强中文文本检索能力而设计的嵌入模型
|
|
29 |
- rerank模型对(query,message)评分,舍弃pos中的负例,neg中的正例
|
30 |
|
31 |
## Collect more data for retrieval-type tasks
|
32 |
-
1.
|
33 |
-
|
34 |
-
|
35 |
-
|
36 |
-
|
37 |
-
|
38 |
-
|
|
|
39 |
|
40 |
## Performance
|
41 |
**C_MTEB RETRIEVAL**
|
@@ -52,7 +53,7 @@ chuxin-embedding 是专为增强中文文本检索能力而设计的嵌入模型
|
|
52 |
| :-------------------: | :---------:| :---------: | :-------: | :------------: | :-----------: | :-----------: | :----------: |
|
53 |
| bge-m3 | bge-reranker-large | 64.53 | 76.11 | 67.8 | 63.25 | 62.9 | 52.61 |
|
54 |
| gte-Qwen2-7B-instruct |bge-reranker-large | 63.39 | 78.09 | 67.56 | 63.14 | 61.12 | 47.02 |
|
55 |
-
| **chuxin-embedding
|
56 |
|
57 |
|
58 |
## Generate Embedding for text
|
|
|
29 |
- rerank模型对(query,message)评分,舍弃pos中的负例,neg中的正例
|
30 |
|
31 |
## Collect more data for retrieval-type tasks
|
32 |
+
1. 预训练数据
|
33 |
+
- ChineseWebText、 oasis、 oscar、 SkyPile、 wudao
|
34 |
+
2. 微调数据
|
35 |
+
- MTP 、webqa、nlpcc、csl、bq、atec、ccks
|
36 |
+
3. 精调数据
|
37 |
+
- BGE-M3 、Huatuo26M-Lite 、covid ...
|
38 |
+
- LLM 合成(BGE-M3 、Huatuo26M-Lite 、covid、wudao、wanjuan_news、mnbvc_news_wiki、mldr、medical QA...)
|
39 |
+
|
40 |
|
41 |
## Performance
|
42 |
**C_MTEB RETRIEVAL**
|
|
|
53 |
| :-------------------: | :---------:| :---------: | :-------: | :------------: | :-----------: | :-----------: | :----------: |
|
54 |
| bge-m3 | bge-reranker-large | 64.53 | 76.11 | 67.8 | 63.25 | 62.9 | 52.61 |
|
55 |
| gte-Qwen2-7B-instruct |bge-reranker-large | 63.39 | 78.09 | 67.56 | 63.14 | 61.12 | 47.02 |
|
56 |
+
| **chuxin-embedding(当前)** | bge-reranker-large | **64.7** |76.14 | 68.34 | 64.09 | 63.03 | 51.89 |
|
57 |
|
58 |
|
59 |
## Generate Embedding for text
|