Training in progress, step 500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +299 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:814c0505ae9626a132eee74a5d49746ba88ce25071435a2e3bf44bf9a6955753
 size 150487412

 version https://git-lfs.github.com/spec/v1
+oid sha256:b14558afc2ff84281d8813573705af0c29271e886a5c55ea1716c22df3fa2654
 size 150487412

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d2e5ea8bbdbe6933b5b2f456e20e6bca2dc98048eecb503cf50ba6989aff775
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7e214f2b29bc7b5cdb3187dd8641f87052b9b8ab7ca01c37e612aeca4c84a0c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:128e0b0294b5389dce5b958620f0aba512ba88459c3fb7de261ee4ac77eb7fa5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe1d153de177b356f9e3a70d6e4ec979560b0c300994e71ca4cb89afc74c5b3a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01212214270994541,
   "eval_steps": 125,
-  "global_step": 375,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -914,6 +914,301 @@
       "eval_samples_per_second": 45.393,
       "eval_steps_per_second": 22.697,
       "step": 375
     }
   ],
   "logging_steps": 3,
@@ -928,12 +1223,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.551356850176e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01616285694659388,
   "eval_steps": 125,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 45.393,
       "eval_steps_per_second": 22.697,
       "step": 375
+    },
+    {
+      "epoch": 0.012219119851624972,
+      "grad_norm": NaN,
+      "learning_rate": 1.4531503949737108e-05,
+      "loss": 0.0,
+      "step": 378
+    },
+    {
+      "epoch": 0.012316096993304536,
+      "grad_norm": NaN,
+      "learning_rate": 1.3860256808630428e-05,
+      "loss": 0.0,
+      "step": 381
+    },
+    {
+      "epoch": 0.0124130741349841,
+      "grad_norm": NaN,
+      "learning_rate": 1.3202379370768252e-05,
+      "loss": 0.0,
+      "step": 384
+    },
+    {
+      "epoch": 0.012510051276663664,
+      "grad_norm": NaN,
+      "learning_rate": 1.2558115014363592e-05,
+      "loss": 0.0,
+      "step": 387
+    },
+    {
+      "epoch": 0.012607028418343226,
+      "grad_norm": NaN,
+      "learning_rate": 1.1927702081543279e-05,
+      "loss": 0.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.01270400556002279,
+      "grad_norm": NaN,
+      "learning_rate": 1.1311373790174657e-05,
+      "loss": 0.0,
+      "step": 393
+    },
+    {
+      "epoch": 0.012800982701702353,
+      "grad_norm": NaN,
+      "learning_rate": 1.0709358147587884e-05,
+      "loss": 0.0,
+      "step": 396
+    },
+    {
+      "epoch": 0.012897959843381917,
+      "grad_norm": NaN,
+      "learning_rate": 1.0121877866225781e-05,
+      "loss": 0.0,
+      "step": 399
+    },
+    {
+      "epoch": 0.012994936985061479,
+      "grad_norm": NaN,
+      "learning_rate": 9.549150281252633e-06,
+      "loss": 0.0,
+      "step": 402
+    },
+    {
+      "epoch": 0.013091914126741043,
+      "grad_norm": NaN,
+      "learning_rate": 8.991387270152201e-06,
+      "loss": 0.0,
+      "step": 405
+    },
+    {
+      "epoch": 0.013188891268420606,
+      "grad_norm": NaN,
+      "learning_rate": 8.448795174344804e-06,
+      "loss": 0.0,
+      "step": 408
+    },
+    {
+      "epoch": 0.01328586841010017,
+      "grad_norm": NaN,
+      "learning_rate": 7.921574722852343e-06,
+      "loss": 0.0,
+      "step": 411
+    },
+    {
+      "epoch": 0.013382845551779732,
+      "grad_norm": NaN,
+      "learning_rate": 7.409920958039795e-06,
+      "loss": 0.0,
+      "step": 414
+    },
+    {
+      "epoch": 0.013479822693459296,
+      "grad_norm": NaN,
+      "learning_rate": 6.9140231634602485e-06,
+      "loss": 0.0,
+      "step": 417
+    },
+    {
+      "epoch": 0.01357679983513886,
+      "grad_norm": NaN,
+      "learning_rate": 6.43406479383053e-06,
+      "loss": 0.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.013673776976818422,
+      "grad_norm": NaN,
+      "learning_rate": 5.9702234071631e-06,
+      "loss": 0.0,
+      "step": 423
+    },
+    {
+      "epoch": 0.013770754118497985,
+      "grad_norm": NaN,
+      "learning_rate": 5.5226705990794155e-06,
+      "loss": 0.0,
+      "step": 426
+    },
+    {
+      "epoch": 0.013867731260177549,
+      "grad_norm": NaN,
+      "learning_rate": 5.091571939329048e-06,
+      "loss": 0.0,
+      "step": 429
+    },
+    {
+      "epoch": 0.013964708401857113,
+      "grad_norm": NaN,
+      "learning_rate": 4.677086910538092e-06,
+      "loss": 0.0,
+      "step": 432
+    },
+    {
+      "epoch": 0.014061685543536675,
+      "grad_norm": NaN,
+      "learning_rate": 4.279368849209381e-06,
+      "loss": 0.0,
+      "step": 435
+    },
+    {
+      "epoch": 0.014158662685216239,
+      "grad_norm": NaN,
+      "learning_rate": 3.898564888996476e-06,
+      "loss": 0.0,
+      "step": 438
+    },
+    {
+      "epoch": 0.014255639826895802,
+      "grad_norm": NaN,
+      "learning_rate": 3.534815906272404e-06,
+      "loss": 0.0,
+      "step": 441
+    },
+    {
+      "epoch": 0.014352616968575366,
+      "grad_norm": NaN,
+      "learning_rate": 3.18825646801314e-06,
+      "loss": 0.0,
+      "step": 444
+    },
+    {
+      "epoch": 0.014449594110254928,
+      "grad_norm": NaN,
+      "learning_rate": 2.8590147820153513e-06,
+      "loss": 0.0,
+      "step": 447
+    },
+    {
+      "epoch": 0.014546571251934492,
+      "grad_norm": NaN,
+      "learning_rate": 2.547212649466568e-06,
+      "loss": 0.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.014643548393614056,
+      "grad_norm": NaN,
+      "learning_rate": 2.2529654198854835e-06,
+      "loss": 0.0,
+      "step": 453
+    },
+    {
+      "epoch": 0.01474052553529362,
+      "grad_norm": NaN,
+      "learning_rate": 1.9763819484490355e-06,
+      "loss": 0.0,
+      "step": 456
+    },
+    {
+      "epoch": 0.014837502676973181,
+      "grad_norm": NaN,
+      "learning_rate": 1.7175645557220566e-06,
+      "loss": 0.0,
+      "step": 459
+    },
+    {
+      "epoch": 0.014934479818652745,
+      "grad_norm": NaN,
+      "learning_rate": 1.4766089898042678e-06,
+      "loss": 0.0,
+      "step": 462
+    },
+    {
+      "epoch": 0.015031456960332309,
+      "grad_norm": NaN,
+      "learning_rate": 1.2536043909088191e-06,
+      "loss": 0.0,
+      "step": 465
+    },
+    {
+      "epoch": 0.01512843410201187,
+      "grad_norm": NaN,
+      "learning_rate": 1.0486332583853563e-06,
+      "loss": 0.0,
+      "step": 468
+    },
+    {
+      "epoch": 0.015225411243691435,
+      "grad_norm": NaN,
+      "learning_rate": 8.617714201998084e-07,
+      "loss": 0.0,
+      "step": 471
+    },
+    {
+      "epoch": 0.015322388385370998,
+      "grad_norm": NaN,
+      "learning_rate": 6.93088004882253e-07,
+      "loss": 0.0,
+      "step": 474
+    },
+    {
+      "epoch": 0.015419365527050562,
+      "grad_norm": NaN,
+      "learning_rate": 5.426454159531913e-07,
+      "loss": 0.0,
+      "step": 477
+    },
+    {
+      "epoch": 0.015516342668730124,
+      "grad_norm": NaN,
+      "learning_rate": 4.104993088376974e-07,
+      "loss": 0.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.015613319810409688,
+      "grad_norm": NaN,
+      "learning_rate": 2.966985702759828e-07,
+      "loss": 0.0,
+      "step": 483
+    },
+    {
+      "epoch": 0.01571029695208925,
+      "grad_norm": NaN,
+      "learning_rate": 2.012853002380466e-07,
+      "loss": 0.0,
+      "step": 486
+    },
+    {
+      "epoch": 0.015807274093768815,
+      "grad_norm": NaN,
+      "learning_rate": 1.2429479634897267e-07,
+      "loss": 0.0,
+      "step": 489
+    },
+    {
+      "epoch": 0.015904251235448377,
+      "grad_norm": NaN,
+      "learning_rate": 6.575554083078084e-08,
+      "loss": 0.0,
+      "step": 492
+    },
+    {
+      "epoch": 0.016001228377127943,
+      "grad_norm": NaN,
+      "learning_rate": 2.568918996560532e-08,
+      "loss": 0.0,
+      "step": 495
+    },
+    {
+      "epoch": 0.016098205518807505,
+      "grad_norm": NaN,
+      "learning_rate": 4.110566084036816e-09,
+      "loss": 0.0,
+      "step": 498
+    },
+    {
+      "epoch": 0.01616285694659388,
+      "eval_loss": NaN,
+      "eval_runtime": 660.3671,
+      "eval_samples_per_second": 39.449,
+      "eval_steps_per_second": 19.725,
+      "step": 500
     }
   ],
   "logging_steps": 3,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.401809133568e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null