Minbyul
/

meditron-7b-dpo-full-wo-kqa_golden-ep3

@@ -2,15 +2,10 @@
 license: llama2
 base_model: epfl-llm/meditron-7b
 tags:
-- alignment-handbook
-- trl
-- dpo
-- generated_from_trainer
 - trl
 - dpo
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: meditron-7b-dpo-full-wo-kqa_golden-ep3
   results: []
@@ -21,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # meditron-7b-dpo-full-wo-kqa_golden-ep3
-This model is a fine-tuned version of [epfl-llm/meditron-7b](https://huggingface.co/epfl-llm/meditron-7b) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4459
-- Rewards/chosen: -0.4566
-- Rewards/rejected: -1.4012
 - Rewards/accuracies: 0.8068
 - Rewards/margins: 0.9447
-- Logps/rejected: -1444.6896
-- Logps/chosen: -859.0582
-- Logits/rejected: -0.9203
-- Logits/chosen: -0.8310
 ## Model description
@@ -66,10 +61,10 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5643        | 0.5   | 100  | 0.5890          | -0.0484        | -0.2951          | 0.7727             | 0.2467          | -1334.0771     | -818.2397    | -0.8645         | -0.6995       |
-| 0.3959        | 1.0   | 200  | 0.4459          | -0.4566        | -1.4012          | 0.8068             | 0.9447          | -1444.6896     | -859.0582    | -0.9203         | -0.8310       |
 ### Framework versions

 license: llama2
 base_model: epfl-llm/meditron-7b
 tags:
 - trl
 - dpo
+- alignment-handbook
 - generated_from_trainer
 model-index:
 - name: meditron-7b-dpo-full-wo-kqa_golden-ep3
   results: []
 # meditron-7b-dpo-full-wo-kqa_golden-ep3
+This model is a fine-tuned version of [epfl-llm/meditron-7b](https://huggingface.co/epfl-llm/meditron-7b) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Logits/chosen: -0.8310
+- Logits/rejected: -0.9203
+- Logps/chosen: -859.0582
+- Logps/rejected: -1444.6896
 - Loss: 0.4459
 - Rewards/accuracies: 0.8068
+- Rewards/chosen: -0.4566
 - Rewards/margins: 0.9447
+- Rewards/rejected: -1.4012
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
+|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 0.5643        | 0.5   | 100  | -0.6995       | -0.8645         | -818.2397    | -1334.0771     | 0.5890          | 0.7727             | -0.0484        | 0.2467          | -0.2951          |
+| 0.3959        | 1.0   | 200  | -0.8310       | -0.9203         | -859.0582    | -1444.6896     | 0.4459          | 0.8068             | -0.4566        | 0.9447          | -1.4012          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -13,9 +13,9 @@
     "eval_samples": 676,
     "eval_samples_per_second": 8.395,
     "eval_steps_per_second": 0.273,
-    "train_loss": 0.5449820566177368,
-    "train_runtime": 3295.9797,
     "train_samples": 12791,
-    "train_samples_per_second": 3.881,
-    "train_steps_per_second": 0.061
 }

     "eval_samples": 676,
     "eval_samples_per_second": 8.395,
     "eval_steps_per_second": 0.273,
+    "train_loss": 0.0,
+    "train_runtime": 2.1286,
     "train_samples": 12791,
+    "train_samples_per_second": 6009.015,
+    "train_steps_per_second": 93.957
 }

config.json CHANGED Viewed

@@ -23,6 +23,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
-  "use_cache": true,
   "vocab_size": 32017
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.39.0.dev0",
+  "use_cache": false,
   "vocab_size": 32017
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5449820566177368,
-    "train_runtime": 3295.9797,
     "train_samples": 12791,
-    "train_samples_per_second": 3.881,
-    "train_steps_per_second": 0.061
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.0,
+    "train_runtime": 2.1286,
     "train_samples": 12791,
+    "train_samples_per_second": 6009.015,
+    "train_steps_per_second": 93.957
 }

trainer_state.json CHANGED Viewed

@@ -359,10 +359,10 @@
       "epoch": 1.0,
       "step": 200,
       "total_flos": 0.0,
-      "train_loss": 0.5449820566177368,
-      "train_runtime": 3295.9797,
-      "train_samples_per_second": 3.881,
-      "train_steps_per_second": 0.061
     }
   ],
   "logging_steps": 10,

       "epoch": 1.0,
       "step": 200,
       "total_flos": 0.0,
+      "train_loss": 0.0,
+      "train_runtime": 2.1286,
+      "train_samples_per_second": 6009.015,
+      "train_steps_per_second": 93.957
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd53dda42c7e5233cf878ab56800a1d8b2bf9a44cdfc7c732ed3fd104c7948ce
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:beea2194ed996027ed8a95f01bc25fff671b87a7c15e301980832509c5fe90a9
 size 6264