End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -3,9 +3,16 @@ library_name: transformers
 license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B-Instruct
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: lambda-llama-3-8b-dpo-test-orca
   results: []
@@ -16,17 +23,17 @@ should probably proofread and complete it, then remove this comment. -->
 # lambda-llama-3-8b-dpo-test-orca
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4798
-- Rewards/chosen: -1.7085
-- Rewards/rejected: -2.8440
 - Rewards/accuracies: 0.7259
-- Rewards/margins: 1.1355
-- Logps/rejected: -648.5815
-- Logps/chosen: -551.6072
-- Logits/rejected: -2.6442
-- Logits/chosen: -2.5812
 ## Model description

 license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B-Instruct
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
+- trl
+- dpo
+- generated_from_trainer
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
+- tanliboy/orca_dpo_pairs
 model-index:
 - name: lambda-llama-3-8b-dpo-test-orca
   results: []
 # lambda-llama-3-8b-dpo-test-orca
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct) on the HuggingFaceH4/ultrafeedback_binarized and the tanliboy/orca_dpo_pairs datasets.
 It achieves the following results on the evaluation set:
+- Loss: 0.4795
+- Rewards/chosen: -1.6860
+- Rewards/rejected: -2.8132
 - Rewards/accuracies: 0.7259
+- Rewards/margins: 1.1272
+- Logps/rejected: -645.5051
+- Logps/chosen: -549.3651
+- Logits/rejected: -2.6630
+- Logits/chosen: -2.5985
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 0.9995638901003053,
     "total_flos": 0.0,
     "train_loss": 0.5544013454860002,
     "train_runtime": 8395.7281,

 {
     "epoch": 0.9995638901003053,
+    "eval_logits/chosen": -2.598531484603882,
+    "eval_logits/rejected": -2.6629889011383057,
+    "eval_logps/chosen": -549.3650512695312,
+    "eval_logps/rejected": -645.505126953125,
+    "eval_loss": 0.47948434948921204,
+    "eval_rewards/accuracies": 0.7259036302566528,
+    "eval_rewards/chosen": -1.6860378980636597,
+    "eval_rewards/margins": 1.1272025108337402,
+    "eval_rewards/rejected": -2.8132402896881104,
+    "eval_runtime": 114.4643,
+    "eval_samples": 2643,
+    "eval_samples_per_second": 23.09,
+    "eval_steps_per_second": 0.725,
     "total_flos": 0.0,
     "train_loss": 0.5544013454860002,
     "train_runtime": 8395.7281,

config.json CHANGED Viewed

@@ -34,6 +34,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
-  "use_cache": false,
   "vocab_size": 128256
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.2",
+  "use_cache": true,
   "vocab_size": 128256
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 0.9947643979057592,
-    "eval_logits/chosen": -2.4346187114715576,
-    "eval_logits/rejected": -1.9611175060272217,
-    "eval_logps/chosen": -562.0942993164062,
-    "eval_logps/rejected": -970.0545654296875,
-    "eval_loss": 0.12353485077619553,
-    "eval_rewards/accuracies": 0.9642857313156128,
-    "eval_rewards/chosen": -2.802823305130005,
-    "eval_rewards/margins": 3.8823659420013428,
-    "eval_rewards/rejected": -6.685189247131348,
-    "eval_runtime": 28.3026,
-    "eval_samples": 643,
-    "eval_samples_per_second": 22.719,
-    "eval_steps_per_second": 0.742
 }

 {
+    "epoch": 0.9995638901003053,
+    "eval_logits/chosen": -2.598531484603882,
+    "eval_logits/rejected": -2.6629889011383057,
+    "eval_logps/chosen": -549.3650512695312,
+    "eval_logps/rejected": -645.505126953125,
+    "eval_loss": 0.47948434948921204,
+    "eval_rewards/accuracies": 0.7259036302566528,
+    "eval_rewards/chosen": -1.6860378980636597,
+    "eval_rewards/margins": 1.1272025108337402,
+    "eval_rewards/rejected": -2.8132402896881104,
+    "eval_runtime": 114.4643,
+    "eval_samples": 2643,
+    "eval_samples_per_second": 23.09,
+    "eval_steps_per_second": 0.725
 }

runs/Sep21_04-47-22_action-graph-trainer/events.out.tfevents.1726903646.action-graph-trainer.3148605.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1a66327874f7548f3e44d13670588ee176160db3f134c42ed142e3ebe2b7701
+size 828