Training in progress, step 75, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dada59e55e95e2400430a3fa779d1a320c80de9757317978ce37068cb0e4629
 size 250422888

 version https://git-lfs.github.com/spec/v1
+oid sha256:e39c0deda4d7900db2e2c45645b551e017366c3e45b9ad62dde227de59131164
 size 250422888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:661d11eb8c7b88525f8954ec05ac9836f2d13050ee54ba9ea88a81d9ce6ca539
 size 501168482

 version https://git-lfs.github.com/spec/v1
+oid sha256:156cf2f400275f373f894791612456ae73decd6e116cd49f9af17f92a20a60a8
 size 501168482

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6c51394d4d9a5546712570810c55b6767a5de4a969fd8bb1026d4ad8b7aa26b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebbff9e443dec67e04f43734b7efee6a4af31572f74dcdacefd50f76ca714b84
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a89ffc445067fef9d6d02bb3ff9e61d5e3209e6fa67c7259b3b364b90dbaa2cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f23e2214bcafb439ebc7528dcc283ef6218d509a276c0baff0743503ecbe3d92
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2070393374741201,
   "eval_steps": 9,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -405,6 +405,205 @@
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.4769,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -424,7 +623,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1489572231839744e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3105590062111801,
   "eval_steps": 9,
+  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.868240888334653e-05,
       "loss": 1.4769,
       "step": 50
+    },
+    {
+      "epoch": 0.2111801242236025,
+      "grad_norm": 1.3331935405731201,
+      "learning_rate": 5.695865504800327e-05,
+      "loss": 1.8375,
+      "step": 51
+    },
+    {
+      "epoch": 0.2153209109730849,
+      "grad_norm": 1.3784667253494263,
+      "learning_rate": 5.522642316338268e-05,
+      "loss": 1.825,
+      "step": 52
+    },
+    {
+      "epoch": 0.2194616977225673,
+      "grad_norm": 1.5882664918899536,
+      "learning_rate": 5.348782368720626e-05,
+      "loss": 1.7993,
+      "step": 53
+    },
+    {
+      "epoch": 0.2236024844720497,
+      "grad_norm": 1.4123127460479736,
+      "learning_rate": 5.174497483512506e-05,
+      "loss": 2.0265,
+      "step": 54
+    },
+    {
+      "epoch": 0.2236024844720497,
+      "eval_loss": 0.9083660840988159,
+      "eval_runtime": 86.6141,
+      "eval_samples_per_second": 2.355,
+      "eval_steps_per_second": 0.3,
+      "step": 54
+    },
+    {
+      "epoch": 0.2277432712215321,
+      "grad_norm": 1.447785496711731,
+      "learning_rate": 5e-05,
+      "loss": 2.1512,
+      "step": 55
+    },
+    {
+      "epoch": 0.2318840579710145,
+      "grad_norm": 1.2638105154037476,
+      "learning_rate": 4.825502516487497e-05,
+      "loss": 1.846,
+      "step": 56
+    },
+    {
+      "epoch": 0.2360248447204969,
+      "grad_norm": 1.3584290742874146,
+      "learning_rate": 4.6512176312793736e-05,
+      "loss": 1.8303,
+      "step": 57
+    },
+    {
+      "epoch": 0.2401656314699793,
+      "grad_norm": 1.3381396532058716,
+      "learning_rate": 4.477357683661734e-05,
+      "loss": 1.8396,
+      "step": 58
+    },
+    {
+      "epoch": 0.2443064182194617,
+      "grad_norm": 1.3689265251159668,
+      "learning_rate": 4.3041344951996746e-05,
+      "loss": 2.0676,
+      "step": 59
+    },
+    {
+      "epoch": 0.2484472049689441,
+      "grad_norm": 1.4174652099609375,
+      "learning_rate": 4.131759111665349e-05,
+      "loss": 1.9523,
+      "step": 60
+    },
+    {
+      "epoch": 0.2525879917184265,
+      "grad_norm": 1.3407961130142212,
+      "learning_rate": 3.960441545911204e-05,
+      "loss": 2.012,
+      "step": 61
+    },
+    {
+      "epoch": 0.2567287784679089,
+      "grad_norm": 1.2478750944137573,
+      "learning_rate": 3.790390522001662e-05,
+      "loss": 1.7861,
+      "step": 62
+    },
+    {
+      "epoch": 0.2608695652173913,
+      "grad_norm": 1.5503246784210205,
+      "learning_rate": 3.6218132209150045e-05,
+      "loss": 1.9632,
+      "step": 63
+    },
+    {
+      "epoch": 0.2608695652173913,
+      "eval_loss": 0.8929786682128906,
+      "eval_runtime": 86.6107,
+      "eval_samples_per_second": 2.355,
+      "eval_steps_per_second": 0.3,
+      "step": 63
+    },
+    {
+      "epoch": 0.2650103519668737,
+      "grad_norm": 1.4950432777404785,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 1.8385,
+      "step": 64
+    },
+    {
+      "epoch": 0.2691511387163561,
+      "grad_norm": 1.512736201286316,
+      "learning_rate": 3.289899283371657e-05,
+      "loss": 1.7907,
+      "step": 65
+    },
+    {
+      "epoch": 0.2732919254658385,
+      "grad_norm": 1.3820559978485107,
+      "learning_rate": 3.12696703292044e-05,
+      "loss": 1.8472,
+      "step": 66
+    },
+    {
+      "epoch": 0.2774327122153209,
+      "grad_norm": 1.4131429195404053,
+      "learning_rate": 2.9663167846209998e-05,
+      "loss": 1.4766,
+      "step": 67
+    },
+    {
+      "epoch": 0.2815734989648033,
+      "grad_norm": 1.5196677446365356,
+      "learning_rate": 2.8081442660546125e-05,
+      "loss": 2.1048,
+      "step": 68
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 1.3883243799209595,
+      "learning_rate": 2.6526421860705473e-05,
+      "loss": 1.8889,
+      "step": 69
+    },
+    {
+      "epoch": 0.2898550724637681,
+      "grad_norm": 1.5153822898864746,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 2.039,
+      "step": 70
+    },
+    {
+      "epoch": 0.2939958592132505,
+      "grad_norm": 1.3976097106933594,
+      "learning_rate": 2.350403678833976e-05,
+      "loss": 2.0947,
+      "step": 71
+    },
+    {
+      "epoch": 0.2981366459627329,
+      "grad_norm": 1.1849572658538818,
+      "learning_rate": 2.2040354826462668e-05,
+      "loss": 1.8548,
+      "step": 72
+    },
+    {
+      "epoch": 0.2981366459627329,
+      "eval_loss": 0.8833903074264526,
+      "eval_runtime": 86.6246,
+      "eval_samples_per_second": 2.355,
+      "eval_steps_per_second": 0.3,
+      "step": 72
+    },
+    {
+      "epoch": 0.3022774327122153,
+      "grad_norm": 1.4871492385864258,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 2.4162,
+      "step": 73
+    },
+    {
+      "epoch": 0.3064182194616977,
+      "grad_norm": 1.3210978507995605,
+      "learning_rate": 1.9216926233717085e-05,
+      "loss": 1.6831,
+      "step": 74
+    },
+    {
+      "epoch": 0.3105590062111801,
+      "grad_norm": 1.3456048965454102,
+      "learning_rate": 1.7860619515673033e-05,
+      "loss": 1.8442,
+      "step": 75
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.6694792800960512e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null