File size: 3,320 Bytes
2dac746 c075e22 2dac746 c075e22 2dac746 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 |
---
license: apache-2.0
language:
- ja
datasets:
- Aratako/Rosebleu-1on1-Dialogues
- Aratako/LimaRP-augmented-ja-karakuri
- Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
- grimulkan/LimaRP-augmented
- SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
- OmniAICreator/Japanese-Roleplay
- OmniAICreator/Japanese-Roleplay-Dialogues
---
# Oumuamua-7b-instruct-v2-RP
[nitky/Oumuamua-7b-instruct-v2](https://huggingface.co/nitky/Oumuamua-7b-instruct-v2)をロールプレイ用にLoRAでファインチューニングしたモデルです。
## プロンプトフォーマット
以下のようなchat templateを利用してください。(Alpacaの改変版)
```
{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}
### 入力:
こんにちは。
### 応答:
こんにちは!</s>
### 入力:
今日はいい天気ですね。
### 応答:
```
また、マルチターンの対話を行う場合、各ターンのアシスタントの応答の末尾にeos tokenを必ずつけてください。
## 学習の設定
RunpodでGPUサーバを借り、A6000x4で学習を行いました。学習データをクオリティの高いものと低いものに2分し、2段階に分けて学習しています。
### 1回目の学習
まず、比較的クオリティの低いデータセットで1回学習を行いました。
利用データセットは以下の通りです。
- [OmniAICreator/Japanese-Roleplay](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
- [OmniAICreator/Japanese-Roleplay-Dialogues](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
学習パラメータは以下の通りです。
- lora_r: 128
- lisa_alpha: 256
- lora_dropout: 0.05
- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
- learning_rate: 2e-5
- num_train_epochs: 1 epoch
- batch_size: 32
- max_seq_length: 4096
### 2回目の学習
次に、クオリティの高いデータセットで学習を行いました。この2回目の学習は、completion onlyな学習ではなく、instruction部分もloss計算に入れる手法を取り入れています。また、事前学習で使われるようなinstruction形式ではないデータセットも全体の20%程度混ぜています。
利用データセットは以下の通りです。
- [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
- [Aratako/LimaRP-augmented-ja-karakuri](https://huggingface.co/datasets/Aratako/LimaRP-augmented-ja-karakuri)
- [Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja](https://huggingface.co/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja)
- [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
- [SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed](https://huggingface.co/datasets/SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed)
- 事前学習用データ(instruction形式になっていないもの)
学習パラメータは以下の通りです。
- lora_r: 128
- lisa_alpha: 256
- lora_dropout: 0.05
- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
- learning_rate: 2e-5
- num_train_epochs: 3 epochs
- batch_size: 32
- max_seq_length: 4096 |