Text Generation
Transformers
Safetensors
Japanese
mistral
Not-For-All-Audiences
nsfw
text-generation-inference
Inference Endpoints
Aratako commited on
Commit
56deccf
1 Parent(s): 4ac132d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -3
README.md CHANGED
@@ -69,8 +69,6 @@ Mistralのchat templateを利用してください。また、学習に利用し
69
  ## 使用データセット
70
  - [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
71
  - [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
72
- - [Aratako/Antler-7B-RP](https://huggingface.co/datasets/Aratako/Antler-7B-RP)ではv1の方を利用していましたが、こちらはv2を利用しています。その影響か、出力で状況描写が行われるようになっています。
73
- - [ichikara-instrucion](https://liat-aip.sakura.ne.jp/wp/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF-%E5%85%AC%E9%96%8B/)
74
 
75
  ## 学習の設定
76
  RunpodでGPUサーバを借り、A6000x8で学習を行いました。主な学習パラメータは以下の通りです。
@@ -79,7 +77,7 @@ RunpodでGPUサーバを借り、A6000x8で学習を行いました。主な学
79
  - lora_dropout: 0.05
80
  - lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
81
  - learning_rate: 2e-5
82
- - num_train_epochs: 5 epochs
83
  - batch_size: 64
84
  - max_seq_length: 8192
85
 
 
69
  ## 使用データセット
70
  - [grimulkan/LimaRP-augmented](https://huggingface.co/datasets/grimulkan/LimaRP-augmented)
71
  - [Aratako/Rosebleu-1on1-Dialogues-RP](https://huggingface.co/datasets/Aratako/Rosebleu-1on1-Dialogues-RP)
 
 
72
 
73
  ## 学習の設定
74
  RunpodでGPUサーバを借り、A6000x8で学習を行いました。主な学習パラメータは以下の通りです。
 
77
  - lora_dropout: 0.05
78
  - lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "lm_head"]
79
  - learning_rate: 2e-5
80
+ - num_train_epochs: 10 epochs
81
  - batch_size: 64
82
  - max_seq_length: 8192
83