Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,54 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model:
|
3 |
+
- NTQAI/chatntq-ja-7b-v1.0
|
4 |
+
- Elizezen/Antler-7B
|
5 |
+
language:
|
6 |
+
- ja
|
7 |
+
tags:
|
8 |
+
- mistral
|
9 |
+
- mixtral
|
10 |
+
- merge
|
11 |
+
- moe
|
12 |
+
- not-for-all-audiences
|
13 |
+
- nsfw
|
14 |
+
pipeline_tag: text-generation
|
15 |
+
---
|
16 |
+
|
17 |
+
# LightChatAssistant-TypeB-2x7B-GGUF
|
18 |
+
|
19 |
+
[Sdff-Ltba/LightChatAssistant-TypeB-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-TypeB-2x7B)をGGUF変換したものです。
|
20 |
+
ファイル名に`_imatrix`が付いているものはiMatrixを併用して量子化しています。
|
21 |
+
|
22 |
+
## 量子化手順
|
23 |
+
|
24 |
+
以下の通りに実行しました。(iMatrixを併用してiQ4XSにする場合)
|
25 |
+
```
|
26 |
+
python ./llama.cpp/convert.py ./LightChatAssistant-TypeB-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf
|
27 |
+
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./wiki.train.raw -o ./gguf-model.imatrix --chunks 32
|
28 |
+
./llama.cpp/quantize --imatrix ./gguf-model.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-TypeB-2x7B_iq4xs.gguf iq4_xs
|
29 |
+
```
|
30 |
+
|
31 |
+
## おすすめ量子化タイプ(VRAM12GBの場合)
|
32 |
+
|
33 |
+
- 容量対精度に優れる: iQ4XS (製作者おすすめ)
|
34 |
+
- ContextSizeを32768にしつつVRAMにフルロード: iQ3XXS
|
35 |
+
- 精度重視: Q6K or Q8
|
36 |
+
|
37 |
+
#### 参考
|
38 |
+
|
39 |
+
- [llama.cpp:複雑化する量子化バリエーションの整理(2024.02現在) - ローカルLLM自由帳](https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547)
|
40 |
+
「追記:KL-divergence による量子化評価」を参考にさせていただきました
|
41 |
+
|
42 |
+
## 環境
|
43 |
+
|
44 |
+
- CPU: Ryzen 5 5600X
|
45 |
+
- GPU: GeForce RTX 3060 12GB
|
46 |
+
- RAM: DDR4-3200 96GB
|
47 |
+
- OS: Windows 10
|
48 |
+
- software: Python 3.10.11、[KoboldCpp](https://github.com/LostRuins/koboldcpp) v1.62.2
|
49 |
+
|
50 |
+
#### KoboldCppの設定
|
51 |
+
|
52 |
+
(デフォルトから変更したもののみ記載)
|
53 |
+
- `GPU Layers: 33` (33以上でフルロード)
|
54 |
+
- `Context Size: 32768`
|