qwen_qfUNL_entropy / README.md
yakazimir's picture
Model save
2265fa0 verified
|
raw
history blame
4.91 kB
metadata
library_name: transformers
license: other
base_model: trl-lib/qwen1.5-0.5b-sft
tags:
  - trl
  - simpo
  - generated_from_trainer
model-index:
  - name: qwen_qfUNL_entropy
    results: []

qwen_qfUNL_entropy

This model is a fine-tuned version of trl-lib/qwen1.5-0.5b-sft on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: nan
  • Rewards/chosen: nan
  • Rewards/rejected: nan
  • Rewards/accuracies: 0.0
  • Rewards/margins: nan
  • Logps/rejected: nan
  • Logps/chosen: nan
  • Logits/rejected: nan
  • Logits/chosen: nan
  • Semantic Entropy: nan

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 1e-06
  • train_batch_size: 2
  • eval_batch_size: 4
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 16
  • total_train_batch_size: 32
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_ratio: 0.1
  • num_epochs: 3.0

Training results

Training Loss Epoch Step Validation Loss Rewards/chosen Rewards/rejected Rewards/accuracies Rewards/margins Logps/rejected Logps/chosen Logits/rejected Logits/chosen Semantic Entropy
0.0 0.2141 400 nan nan nan 0.0 nan nan nan nan nan nan
0.0 0.4282 800 nan nan nan 0.0 nan nan nan nan nan nan
0.0 0.6422 1200 nan nan nan 0.0 nan nan nan nan nan nan
0.0 0.8563 1600 nan nan nan 0.0 nan nan nan nan nan nan
0.0 1.0704 2000 nan nan nan 0.0 nan nan nan nan nan nan
0.0 1.2845 2400 nan nan nan 0.0 nan nan nan nan nan nan
0.0 1.4986 2800 nan nan nan 0.0 nan nan nan nan nan nan
0.0 1.7127 3200 nan nan nan 0.0 nan nan nan nan nan nan
0.0 1.9267 3600 nan nan nan 0.0 nan nan nan nan nan nan
0.0 2.1408 4000 nan nan nan 0.0 nan nan nan nan nan nan
0.0 2.3549 4400 nan nan nan 0.0 nan nan nan nan nan nan
0.0 2.5690 4800 nan nan nan 0.0 nan nan nan nan nan nan
0.0 2.7831 5200 nan nan nan 0.0 nan nan nan nan nan nan
0.0 2.9972 5600 nan nan nan 0.0 nan nan nan nan nan nan

Framework versions

  • Transformers 4.44.2
  • Pytorch 2.2.2+cu121
  • Datasets 2.18.0
  • Tokenizers 0.19.1