grapevine-AI
commited on
Commit
•
d5314ea
1
Parent(s):
922deac
Update README.md
Browse files
README.md
CHANGED
@@ -3,14 +3,7 @@ license: gemma
|
|
3 |
---
|
4 |
# What is this?
|
5 |
Googleの言語モデル[gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it)をGGUFフォーマットに変換したものです。<br>
|
6 |
-
|
7 |
-
|
8 |
-
テスト内容
|
9 |
-
```
|
10 |
-
python convert_hf_to_gguf_update.py <hf_token>
|
11 |
-
python convert_hf_to_gguf.py models/tokenizers/gemma-2/ --outfile models/ggml-vocab-gemma-2.gguf --vocab-only
|
12 |
-
test-tokenizer-0 models/ggml-vocab-gemma-2.gguf
|
13 |
-
```
|
14 |
|
15 |
# imatrix dataset
|
16 |
日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
|
@@ -29,17 +22,17 @@ imatrixの算出は本来の精度(=bfloat16)で行いました。<br>
|
|
29 |
各クオンツと必要と想定されるVRAM使用量をまとめておきます。
|
30 |
|クオンツ|VRAM|
|
31 |
|---|---|
|
|
|
32 |
|IQ4_XS|20GB|
|
33 |
|Q4_K_M|22GB|
|
34 |
|Q5_K_M|24GB|
|
35 |
|
36 |
# Note
|
37 |
**llama.cpp-b3389以降と合わせてご利用ください。**<br>
|
38 |
-
なお、このモデル特有の処理であるAttention logit soft-capping
|
39 |
-
GGUF版gemma-2が4096以上のトークンを扱えない問題は、llama.cppのSliding Window Attention対応アップデート([#8227](https://github.com/ggerganov/llama.cpp/pull/8227))によって解決されました。
|
40 |
|
41 |
# Environment
|
42 |
-
Windows版llama.cpp-
|
43 |
|
44 |
# License
|
45 |
gemma license
|
|
|
3 |
---
|
4 |
# What is this?
|
5 |
Googleの言語モデル[gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it)をGGUFフォーマットに変換したものです。<br>
|
6 |
+
公式リポジトリのトークナイザ修正コミット「[Update tokenizer files (#35)](https://huggingface.co/google/gemma-2-27b-it/commit/f6c533e5eb013c7e31fc74ef042ac4f3fb5cf40b)」を反映するために再生成しました。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
|
8 |
# imatrix dataset
|
9 |
日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
|
|
|
22 |
各クオンツと必要と想定されるVRAM使用量をまとめておきます。
|
23 |
|クオンツ|VRAM|
|
24 |
|---|---|
|
25 |
+
|IQ3_S/M|16GB|
|
26 |
|IQ4_XS|20GB|
|
27 |
|Q4_K_M|22GB|
|
28 |
|Q5_K_M|24GB|
|
29 |
|
30 |
# Note
|
31 |
**llama.cpp-b3389以降と合わせてご利用ください。**<br>
|
32 |
+
なお、このモデル特有の処理であるAttention logit soft-cappingが存在するため、``-fa`` オプションでFlash Attentionを使用したい場合は**llama.cpp-b3621以降でご利用ください。**
|
|
|
33 |
|
34 |
# Environment
|
35 |
+
Windows版llama.cpp-b3621およびllama.cpp-b3472同時リリースのconvert-hf-to-gguf.pyを使用して量子化作業を実施しました。
|
36 |
|
37 |
# License
|
38 |
gemma license
|