End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -15,11 +15,11 @@ should probably proofread and complete it, then remove this comment. -->
 # griffin-1024-llama3t-8layer-simplewiki-silu-fineweb-1M_en-med-vN
-This model is a fine-tuned version of [pszemraj/griffin-1024-llama3t-8layer-simplewiki-silu](https://huggingface.co/pszemraj/griffin-1024-llama3t-8layer-simplewiki-silu) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.6745
-- Accuracy: 0.1884
-- Num Input Tokens Seen: 734003200
 ## Model description

 # griffin-1024-llama3t-8layer-simplewiki-silu-fineweb-1M_en-med-vN
+This model is a fine-tuned version of [pszemraj/griffin-1024-llama3t-8layer-simplewiki-silu](https://huggingface.co/pszemraj/griffin-1024-llama3t-8layer-simplewiki-silu) on the BEE-spoke-data/fineweb-1M_en-med dataset.
 It achieves the following results on the evaluation set:
+- Loss: 5.6538
+- Accuracy: 0.1881
+- Num Input Tokens Seen: 766509056
 ## Model description

all_results.json ADDED Viewed

+{
+    "epoch": 0.9999786256278722,
+    "eval_accuracy": 0.1880817456440319,
+    "eval_loss": 5.653779983520508,
+    "eval_runtime": 112.4797,
+    "eval_samples": 300,
+    "eval_samples_per_second": 2.667,
+    "eval_steps_per_second": 1.334,
+    "num_input_tokens_seen": 766509056,
+    "perplexity": 285.3681164586281,
+    "total_flos": 4.708536848052388e+17,
+    "train_loss": 5.594264277028972,
+    "train_runtime": 134120.2101,
+    "train_samples": 374280,
+    "train_samples_per_second": 2.791,
+    "train_steps_per_second": 0.044
+}

eval_results.json ADDED Viewed

+{
+    "epoch": 0.9999786256278722,
+    "eval_accuracy": 0.1880817456440319,
+    "eval_loss": 5.653779983520508,
+    "eval_runtime": 112.4797,
+    "eval_samples": 300,
+    "eval_samples_per_second": 2.667,
+    "eval_steps_per_second": 1.334,
+    "num_input_tokens_seen": 766509056,
+    "perplexity": 285.3681164586281
+}

train_results.json ADDED Viewed

+{
+    "epoch": 0.9999786256278722,
+    "num_input_tokens_seen": 766509056,
+    "total_flos": 4.708536848052388e+17,
+    "train_loss": 5.594264277028972,
+    "train_runtime": 134120.2101,
+    "train_samples": 374280,
+    "train_samples_per_second": 2.791,
+    "train_steps_per_second": 0.044
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff