Training in progress, step 50, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +186 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a42bb530490047b6b59afb662732ce49a3ccd584e2272ced4c4d2609f6629e1e
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b04b5547bd7f762c4616a0f6168cd3a9e8c46661daeb0b8713e6aa7cd18f07e
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a93b66a14975d6b9a1709c3b8508c23f9b8dba35bb3f32df876dec6882851e2
 size 671466706

 version https://git-lfs.github.com/spec/v1
+oid sha256:23d1ff353c116994b15aaf5fe0c2e12bd6d3910ee755042a1c771b1e71d4b5e2
 size 671466706

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4498be7d2ccbb07f40ee3b95153d13a90d83170496e11871db3f69a986f34bd0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e17e8cae61c648514e623adf87a37717b1f670c09e19dae6f5c7cd9c42225ccf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99fc9c0ec571f76cf9b6d1229601c5173899cd18104e487c5627f5f4c56c6e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:46fa8207e86dee7d50b0ab12f1dd18c4426e8c65d06f97f8b2bd004a747e9cfa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03711952487008166,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 3.958,
       "eval_steps_per_second": 1.979,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -217,7 +400,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.748702522127155e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07423904974016332,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.958,
       "eval_steps_per_second": 1.979,
       "step": 25
+    },
+    {
+      "epoch": 0.038604305864884926,
+      "grad_norm": 0.3717527985572815,
+      "learning_rate": 7.68649804173412e-05,
+      "loss": 0.0425,
+      "step": 26
+    },
+    {
+      "epoch": 0.0400890868596882,
+      "grad_norm": 0.81565260887146,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.0945,
+      "step": 27
+    },
+    {
+      "epoch": 0.041573867854491464,
+      "grad_norm": 0.2406810075044632,
+      "learning_rate": 7.308743066175172e-05,
+      "loss": 0.0164,
+      "step": 28
+    },
+    {
+      "epoch": 0.04305864884929473,
+      "grad_norm": 1.2528947591781616,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 0.0452,
+      "step": 29
+    },
+    {
+      "epoch": 0.044543429844097995,
+      "grad_norm": 0.3788902163505554,
+      "learning_rate": 6.91341716182545e-05,
+      "loss": 0.031,
+      "step": 30
+    },
+    {
+      "epoch": 0.04602821083890126,
+      "grad_norm": 0.4253796339035034,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.0581,
+      "step": 31
+    },
+    {
+      "epoch": 0.047512991833704527,
+      "grad_norm": 0.251658171415329,
+      "learning_rate": 6.503528997521366e-05,
+      "loss": 0.012,
+      "step": 32
+    },
+    {
+      "epoch": 0.04899777282850779,
+      "grad_norm": 0.9965800046920776,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 0.054,
+      "step": 33
+    },
+    {
+      "epoch": 0.050482553823311065,
+      "grad_norm": 0.495941698551178,
+      "learning_rate": 6.0821980696905146e-05,
+      "loss": 0.0201,
+      "step": 34
+    },
+    {
+      "epoch": 0.05196733481811433,
+      "grad_norm": 0.4241041839122772,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.0288,
+      "step": 35
+    },
+    {
+      "epoch": 0.053452115812917596,
+      "grad_norm": 0.42201074957847595,
+      "learning_rate": 5.6526309611002594e-05,
+      "loss": 0.0273,
+      "step": 36
+    },
+    {
+      "epoch": 0.05493689680772086,
+      "grad_norm": 0.8984993100166321,
+      "learning_rate": 5.435778713738292e-05,
+      "loss": 0.0647,
+      "step": 37
+    },
+    {
+      "epoch": 0.05642167780252413,
+      "grad_norm": 0.6671286821365356,
+      "learning_rate": 5.218096936826681e-05,
+      "loss": 0.0145,
+      "step": 38
+    },
+    {
+      "epoch": 0.05790645879732739,
+      "grad_norm": 0.07203401625156403,
+      "learning_rate": 5e-05,
+      "loss": 0.0018,
+      "step": 39
+    },
+    {
+      "epoch": 0.05939123979213066,
+      "grad_norm": 0.045727696269750595,
+      "learning_rate": 4.781903063173321e-05,
+      "loss": 0.0012,
+      "step": 40
+    },
+    {
+      "epoch": 0.06087602078693393,
+      "grad_norm": 0.19696299731731415,
+      "learning_rate": 4.564221286261709e-05,
+      "loss": 0.0032,
+      "step": 41
+    },
+    {
+      "epoch": 0.062360801781737196,
+      "grad_norm": 0.3413621485233307,
+      "learning_rate": 4.347369038899744e-05,
+      "loss": 0.0059,
+      "step": 42
+    },
+    {
+      "epoch": 0.06384558277654045,
+      "grad_norm": 0.09776332229375839,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 0.0018,
+      "step": 43
+    },
+    {
+      "epoch": 0.06533036377134373,
+      "grad_norm": 0.0692993700504303,
+      "learning_rate": 3.917801930309486e-05,
+      "loss": 0.001,
+      "step": 44
+    },
+    {
+      "epoch": 0.066815144766147,
+      "grad_norm": 0.013437100686132908,
+      "learning_rate": 3.705904774487396e-05,
+      "loss": 0.0004,
+      "step": 45
+    },
+    {
+      "epoch": 0.06829992576095026,
+      "grad_norm": 0.9036085605621338,
+      "learning_rate": 3.4964710024786354e-05,
+      "loss": 0.0024,
+      "step": 46
+    },
+    {
+      "epoch": 0.06978470675575353,
+      "grad_norm": 14.660072326660156,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 0.4013,
+      "step": 47
+    },
+    {
+      "epoch": 0.07126948775055679,
+      "grad_norm": 2.000504493713379,
+      "learning_rate": 3.086582838174551e-05,
+      "loss": 0.0157,
+      "step": 48
+    },
+    {
+      "epoch": 0.07275426874536006,
+      "grad_norm": 0.019345076754689217,
+      "learning_rate": 2.886908691296504e-05,
+      "loss": 0.0004,
+      "step": 49
+    },
+    {
+      "epoch": 0.07423904974016332,
+      "grad_norm": 3.370844841003418,
+      "learning_rate": 2.6912569338248315e-05,
+      "loss": 0.2163,
+      "step": 50
+    },
+    {
+      "epoch": 0.07423904974016332,
+      "eval_loss": 0.11560910195112228,
+      "eval_runtime": 143.5027,
+      "eval_samples_per_second": 3.958,
+      "eval_steps_per_second": 1.979,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7.478754782950195e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null