--- license: apache-2.0 language: - ja datasets: - Aratako/Rosebleu-1on1-Dialogues - Aratako/LimaRP-augmented-ja-karakuri - Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja - grimulkan/LimaRP-augmented - SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed - OmniAICreator/Japanese-Roleplay - OmniAICreator/Japanese-Roleplay-Dialogues --- # Oumuamua-7b-instruct-v2-RP [nitky/Oumuamua-7b-instruct-v2](https://huggingface.co/nitky/Oumuamua-7b-instruct-v2)をロールプレイ用にLoRAでファインチューニングしたモデルです。 ## プロンプトフォーマット 以下のようなchat templateを利用してください。(Alpacaの改変版) ``` {ロールプレイの指示、世界観・あらすじの説明、キャラの設定など} ### 入力: こんにちは。 ### 応答: こんにちは! ### 入力: 今日はいい天気ですね。 ### 応答: ``` また、マルチターンの対話を行う場合、各ターンのアシスタントの応答の末尾にeos tokenを必ずつけてください。 ## 学習の設定 RunpodでGPUサーバを借り、A6000x4で学習を行いました。学習データをクオリティの高いものと低いものに2分し、2段階に分けて学習しています。 ### 1回目の学習 まず、比較的クオリティの低いデータセットで1回学習を行いました。 利用データセットは以下の通りです。 - [OmniAICreator/Japanese-Roleplay](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay) - [OmniAICreator/Japanese-Roleplay-Dialogues](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay) 学習パラメータは以下の通りです。 - lora_r: 128 - lisa_alpha: 256 - lora_dropout: 0.05 - lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"] - learning_rate: 2e-5 - num_train_epochs: 1 epoch - batch_size: 32 - max_seq_length: 4096 ### 2回目の学習 次に、クオリティの高いデータセットで学習を行いました。この2回目の学習は、completion onlyな学習ではなく、instruction部分もloss計算に入れる手法を取り入れています。また、事前学習で使われるようなinstruction形式ではないデータセットも全体の20%程度混ぜています。 利用データセットは以下の通りです。 - [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP) - [Aratako/LimaRP-augmented-ja-karakuri](https://huggingface.co/datasets/Aratako/LimaRP-augmented-ja-karakuri) - [Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja](https://huggingface.co/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja) - [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented) - [SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed](https://huggingface.co/datasets/SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed) - 事前学習用データ(instruction形式になっていないもの) 学習パラメータは以下の通りです。 - lora_r: 128 - lisa_alpha: 256 - lora_dropout: 0.05 - lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"] - learning_rate: 2e-5 - num_train_epochs: 3 epochs - batch_size: 32 - max_seq_length: 4096