metadata

library_name: transformers
license: other
base_model: trl-lib/qwen1.5-0.5b-sft
tags:
  - trl
  - simpo
  - generated_from_trainer
model-index:
  - name: qwen_qfUNL_entropy
    results: []

qwen_qfUNL_entropy

This model is a fine-tuned version of trl-lib/qwen1.5-0.5b-sft on an unknown dataset. It achieves the following results on the evaluation set:

Loss: nan
Rewards/chosen: nan
Rewards/rejected: nan
Rewards/accuracies: 0.0
Rewards/margins: nan
Logps/rejected: nan
Logps/chosen: nan
Logits/rejected: nan
Logits/chosen: nan
Semantic Entropy: nan

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-06
train_batch_size: 2
eval_batch_size: 4
seed: 42
distributed_type: multi-GPU
gradient_accumulation_steps: 16
total_train_batch_size: 32
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 3.0

Training results

Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen	Semantic Entropy
0.2141	400	nan	nan	nan	nan	nan	nan	nan	nan	nan
0.4282	800	nan	nan	nan	nan	nan	nan	nan	nan	nan
0.6422	1200	nan	nan	nan	nan	nan	nan	nan	nan	nan
0.8563	1600	nan	nan	nan	nan	nan	nan	nan	nan	nan
1.0704	2000	nan	nan	nan	nan	nan	nan	nan	nan	nan
1.2845	2400	nan	nan	nan	nan	nan	nan	nan	nan	nan
1.4986	2800	nan	nan	nan	nan	nan	nan	nan	nan	nan
1.7127	3200	nan	nan	nan	nan	nan	nan	nan	nan	nan
1.9267	3600	nan	nan	nan	nan	nan	nan	nan	nan	nan
2.1408	4000	nan	nan	nan	nan	nan	nan	nan	nan	nan
2.3549	4400	nan	nan	nan	nan	nan	nan	nan	nan	nan
2.5690	4800	nan	nan	nan	nan	nan	nan	nan	nan	nan
2.7831	5200	nan	nan	nan	nan	nan	nan	nan	nan	nan
2.9972	5600	nan	nan	nan	nan	nan	nan	nan	nan	nan

Framework versions

Transformers 4.44.2
Pytorch 2.2.2+cu121
Datasets 2.18.0
Tokenizers 0.19.1