ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking
データセット:tyqiangz/multilingual-sentiments
バッチサイズ: 16固定
オプティマイザ: adamw
Optunaでハイパーパラメータ探索
- 学習率スケジュールのタイプ(lr_scheduler_type): constant, linear, cosine
- 学習率(learning rate): 1e-6 ~ 1e-4
- 勾配累積ステップ(gradient_accumulation_steps): 1, 2, 4, 8, 16
- 正則化(weight_decay): 1e-6 ~ 1e-1
Optunaでの探索結果は以下
- 学習率スケジュールタイプ(lr_scheduler_type): cosine
- 学習率(learning rate): 2.8200169553241494e-05
- 勾配累積ステップ(gradient_accumulation_steps): 1
- 正則化(weight_decay): 0.00017069715801856997
- Downloads last month
- 0
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.