--- language: - ja metrics: - accuracy - f1 --- - ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking - データセット:llm-book/wrime-sentiment - オプティマイザ: adamw - Optunaでハイパーパラメータ探索 - 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine - 学習率(learning rate): 1e-6 ~ 1e-4 - バッチサイズ(per_device_train_batch_size): 16, 32, 64, 128, 256 - 正則化(weight_decay): 1e-6 ~ 1e-1 - Optunaでの探索結果は以下 - 学習率スケジュールタイプ(lr_scheduler_type): cosine - 学習率(learning rate): 3.912141264809884e-05 - バッチサイズ(per_device_train_batch_size): 128 - 正則化(weight_decay): 5.220051265759252e-05 - Epoch: 100 - EarlyStopping: early_stopping_patience=3 このハイパーパラメータを使って再度finetuningした.