A-Funakoshi/bert-base-japanese-v3-wrime-v2

ベースモデル：cl-tohoku/bert-base-japanese-whole-word-masking
データセット：llm-book/wrime-sentiment
オプティマイザ: adamw
Optunaでハイパーパラメータ探索
- 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine
- 学習率(learning rate): 1e-6 ~ 1e-4
- バッチサイズ(per_device_train_batch_size): 16, 32, 64, 128, 256
- 正則化(weight_decay): 1e-6 ~ 1e-1
Optunaでの探索結果は以下
- 学習率スケジュールタイプ(lr_scheduler_type): cosine
- 学習率(learning rate): 3.912141264809884e-05
- バッチサイズ(per_device_train_batch_size): 128
- 正則化(weight_decay): 5.220051265759252e-05
- Epoch: 100
- EarlyStopping: early_stopping_patience=3

このハイパーパラメータを使って再度finetuningした．