Aratako commited on
Commit
2dac746
1 Parent(s): 3da0b2e

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +75 -0
README.md ADDED
@@ -0,0 +1,75 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - ja
5
+ datasets:
6
+ - Aratako/Rosebleu-1on1-Dialogues
7
+ - Aratako/LimaRP-augmented-ja-karakuri
8
+ - Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
9
+ - grimulkan/LimaRP-augmented
10
+ - SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
11
+ - OmniAICreator/Japanese-Roleplay
12
+ - OmniAICreator/Japanese-Roleplay-Dialogues
13
+ ---
14
+
15
+ # Oumuamua-7b-instruct-v2-RP
16
+
17
+ [nitky/Oumuamua-7b-instruct-v2](https://huggingface.co/nitky/Oumuamua-7b-instruct-v2)をロールプレイ用にLoRAでファインチューニングしたモデルです。
18
+
19
+ ## プロンプトフォーマット
20
+ 以下のようなchat templateを利用してください。(Alpacaの改変版)
21
+ また、マルチターンの対話を行う場合、各ターンのアシスタントの応答の末尾にeos tokenを必ずつけてください。
22
+
23
+ ```
24
+ {ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}
25
+
26
+ ### 入力:
27
+ こんにちは。
28
+
29
+ ### 応答:
30
+ こんにちは!</s>
31
+
32
+ ### 入力:
33
+ 今日はいい天気ですね。
34
+
35
+ ### 応答:
36
+ ```
37
+
38
+ ## 学習の設定
39
+ RunpodでGPUサーバを借り、A6000x4で学習を行いました。学習データをクオリティの高いものと低いものに2分し、2段階に分けて学習しています。
40
+
41
+ ### 1回目の学習
42
+ まず、比較的クオリティの低いデータセットで1回学習を行いました。
43
+ 利用データセットは以下の通りです。
44
+ - [OmniAICreator/Japanese-Roleplay](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
45
+ - [OmniAICreator/Japanese-Roleplay-Dialogues](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
46
+
47
+ 学習パラメータは以下の通りです。
48
+ - lora_r: 128
49
+ - lisa_alpha: 256
50
+ - lora_dropout: 0.05
51
+ - lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
52
+ - learning_rate: 2e-5
53
+ - num_train_epochs: 1 epochs
54
+ - batch_size: 32
55
+ - max_seq_length: 4096
56
+
57
+ ### 2回目の学習
58
+ 次に、クオリティの高いデータセットで学習を行いました。この2回目の学習は、completion onlyな学習ではなく、instruction部分もloss計算に入れる手法を取り入れています。また、事前学習で使われるようなinstruction形式ではないデータセットも全体の20%程度混ぜています。
59
+ 利用データセットは以下の通りです。
60
+ - [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
61
+ - [Aratako/LimaRP-augmented-ja-karakuri](https://huggingface.co/datasets/Aratako/LimaRP-augmented-ja-karakuri)
62
+ - [Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja](https://huggingface.co/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja)
63
+ - [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
64
+ - [SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed](https://huggingface.co/datasets/SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed)
65
+ - 事前学習用データ(instruction形式になっていないもの)
66
+
67
+ 学習パラメータは以下の通りです。
68
+ - lora_r: 128
69
+ - lisa_alpha: 256
70
+ - lora_dropout: 0.05
71
+ - lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
72
+ - learning_rate: 2e-5
73
+ - num_train_epochs: 3 epochs
74
+ - batch_size: 32
75
+ - max_seq_length: 4096