ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking
データセット:llm-book/wrime-sentiment
オプティマイザ: adamw
Optunaでハイパーパラメータ探索
- 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine
- 学習率(learning rate): 1e-6 ~ 1e-4
- バッチサイズ(per_device_train_batch_size): 16, 32, 64, 128, 256
- 正則化(weight_decay): 1e-6 ~ 1e-1
Optunaでの探索結果は以下
- 学習率スケジュールタイプ(lr_scheduler_type): cosine
- 学習率(learning rate): 3.912141264809884e-05
- バッチサイズ(per_device_train_batch_size): 128
- 正則化(weight_decay): 5.220051265759252e-05
- Epoch: 100
- EarlyStopping: early_stopping_patience=3
このハイパーパラメータを使って再度finetuningした.
- Downloads last month
- 6
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.