grapevine-AI
commited on
Commit
•
89f8688
1
Parent(s):
13d7aa5
Update README.md
Browse files
README.md
CHANGED
@@ -6,18 +6,22 @@ Googleの言語モデル[gemma-2-27b-it](https://huggingface.co/google/gemma-2-2
|
|
6 |
|
7 |
# imatrix dataset
|
8 |
日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
|
9 |
-
なお、謎のエラー「GGML_ASSERT: D:\a\llama.cpp\llama.cpp\ggml\src\ggml-cuda.cu:1257: to_fp32_cuda != nullptr」を回避するため、imatrixの算出においては
|
10 |
|
11 |
# Chat template
|
12 |
```
|
13 |
-
<
|
14 |
ここにpromptを書きます<end_of_turn>
|
15 |
<start_of_turn>model
|
16 |
|
17 |
```
|
|
|
|
|
|
|
|
|
18 |
|
19 |
# Environment
|
20 |
-
Windows版llama.cpp-
|
21 |
|
22 |
# License
|
23 |
gemma license
|
|
|
6 |
|
7 |
# imatrix dataset
|
8 |
日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
|
9 |
+
なお、謎のエラー「GGML_ASSERT: D:\a\llama.cpp\llama.cpp\ggml\src\ggml-cuda.cu:1257: to_fp32_cuda != nullptr」を回避するため、imatrixの算出においてはf16精度のモデルを使用しました。
|
10 |
|
11 |
# Chat template
|
12 |
```
|
13 |
+
<start_of_turn>user
|
14 |
ここにpromptを書きます<end_of_turn>
|
15 |
<start_of_turn>model
|
16 |
|
17 |
```
|
18 |
+
# Note
|
19 |
+
**llama.cpp-b3266以降でのみご利用が可能です。**<br>
|
20 |
+
モデル本来のコンテキスト長は8192ですが、現状のGGUF版gemma-2は4096以上のトークンを扱えないようです。これは、llama.cppがSliding Window Attention(=前4096トークンのみに注意を向ける)を取り扱えず、Global Attentionとみなされて計算が行われてしまうためです。<br>
|
21 |
+
また、このモデル特有の処理であるAttention logit cappingが存在するため、Flash Attentionの使用もできません。
|
22 |
|
23 |
# Environment
|
24 |
+
Windows版llama.cpp-b3266および同時リリースのconvert-hf-to-gguf.pyを使用して量子化作業を実施しました。
|
25 |
|
26 |
# License
|
27 |
gemma license
|