Aratako
/

Oumuamua-7b-instruct-v2-RP

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Oumuamua-7b-instruct-v2-RP / README.md

Aratako's picture

Update README.md

c075e22 verified 5 months ago

|

history blame contribute delete

3.32 kB

	---
	license: apache-2.0
	language:
	- ja
	datasets:
	- Aratako/Rosebleu-1on1-Dialogues
	- Aratako/LimaRP-augmented-ja-karakuri
	- Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
	- grimulkan/LimaRP-augmented
	- SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
	- OmniAICreator/Japanese-Roleplay
	- OmniAICreator/Japanese-Roleplay-Dialogues
	---

	# Oumuamua-7b-instruct-v2-RP

	[nitky/Oumuamua-7b-instruct-v2](https://huggingface.co/nitky/Oumuamua-7b-instruct-v2)をロールプレイ用にLoRAでファインチューニングしたモデルです。

	## プロンプトフォーマット
	以下のようなchat templateを利用してください。（Alpacaの改変版）

	```
	{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}

	### 入力:
	こんにちは。

	### 応答:
	こんにちは！</s>

	### 入力:
	今日はいい天気ですね。

	### 応答:
	```
	また、マルチターンの対話を行う場合、各ターンのアシスタントの応答の末尾にeos tokenを必ずつけてください。

	## 学習の設定
	RunpodでGPUサーバを借り、A6000x4で学習を行いました。学習データをクオリティの高いものと低いものに2分し、2段階に分けて学習しています。

	### 1回目の学習
	まず、比較的クオリティの低いデータセットで1回学習を行いました。
	利用データセットは以下の通りです。
	- [OmniAICreator/Japanese-Roleplay](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)
	- [OmniAICreator/Japanese-Roleplay-Dialogues](https://huggingface.co/datasets/OmniAICreator/Japanese-Roleplay)

	学習パラメータは以下の通りです。
	- lora_r: 128
	- lisa_alpha: 256
	- lora_dropout: 0.05
	- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
	- learning_rate: 2e-5
	- num_train_epochs: 1 epoch
	- batch_size: 32
	- max_seq_length: 4096

	### 2回目の学習
	次に、クオリティの高いデータセットで学習を行いました。この2回目の学習は、completion onlyな学習ではなく、instruction部分もloss計算に入れる手法を取り入れています。また、事前学習で使われるようなinstruction形式ではないデータセットも全体の20%程度混ぜています。
	利用データセットは以下の通りです。
	- [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
	- [Aratako/LimaRP-augmented-ja-karakuri](https://huggingface.co/datasets/Aratako/LimaRP-augmented-ja-karakuri)
	- [Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja](https://huggingface.co/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja)
	- [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
	- [SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed](https://huggingface.co/datasets/SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed)
	- 事前学習用データ（instruction形式になっていないもの）

	学習パラメータは以下の通りです。
	- lora_r: 128
	- lisa_alpha: 256
	- lora_dropout: 0.05
	- lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
	- learning_rate: 2e-5
	- num_train_epochs: 3 epochs
	- batch_size: 32
	- max_seq_length: 4096