File size: 2,946 Bytes

b5ba932
0930ee0
 
 
 
b5ba932
 
 
 
 
 
0930ee0
 
b5ba932
 
 
 
0930ee0
 
b5ba932
 
 
 
0930ee0
 
b5ba932
 
 
c618893
0930ee0
 
b5ba932
 
 
e118768
0930ee0
 
b5ba932
 
 
e118768
0930ee0
 
b5ba932
 
 
e118768
0930ee0
 
b5ba932
 
 
e118768
0930ee0
 
b5ba932
 
 
e118768
0930ee0
 
b5ba932
 
 
e118768
0930ee0
 
b5ba932
 
 
0930ee0
 
 
b5ba932
 
 
0930ee0
 
 
b5ba932
 
 
0930ee0
 
 
b5ba932
 
 
0930ee0
 
 
b5ba932
 
 
0930ee0
 
 
b5ba932
 
 
0930ee0
 
 
b5ba932
 
 
0930ee0
 
 
1b6f2d8
b5ba932
 
0930ee0
 
 
1b6f2d8
b5ba932
 
0930ee0
 
 
1b6f2d8
59e1032
 
0930ee0
 
 
e118768
72f33e4
 
e118768
0930ee0
 
 
 
 
b5ba932
 
0930ee0
 
 
b5ba932

{
  "best_metric": 0.7026481628417969,
  "best_model_checkpoint": "output/morgenshtern/checkpoint-100",
  "epoch": 1.0,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05,
      "learning_rate": 4.740143418587856e-05,
      "loss": 0.8849,
      "step": 5
    },
    {
      "epoch": 0.1,
      "learning_rate": 3.745625171786743e-05,
      "loss": 0.6963,
      "step": 10
    },
    {
      "epoch": 0.15,
      "learning_rate": 2.827793169273699e-05,
      "loss": 0.8572,
      "step": 15
    },
    {
      "epoch": 0.2,
      "learning_rate": 2.009247481060302e-05,
      "loss": 0.7158,
      "step": 20
    },
    {
      "epoch": 0.25,
      "learning_rate": 1.310143418587843e-05,
      "loss": 0.8878,
      "step": 25
    },
    {
      "epoch": 0.3,
      "learning_rate": 7.476952440678023e-06,
      "loss": 0.9167,
      "step": 30
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.3575229821526355e-06,
      "loss": 0.7488,
      "step": 35
    },
    {
      "epoch": 0.4,
      "learning_rate": 8.445798351735566e-07,
      "loss": 0.832,
      "step": 40
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0,
      "loss": 0.8448,
      "step": 45
    },
    {
      "epoch": 0.5,
      "learning_rate": 8.445798351735718e-07,
      "loss": 0.9363,
      "step": 50
    },
    {
      "epoch": 0.55,
      "learning_rate": 3.3575229821523687e-06,
      "loss": 0.8096,
      "step": 55
    },
    {
      "epoch": 0.6,
      "learning_rate": 7.476952440677627e-06,
      "loss": 0.8588,
      "step": 60
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.3101434185878491e-05,
      "loss": 0.7752,
      "step": 65
    },
    {
      "epoch": 0.7,
      "learning_rate": 2.0092474810602402e-05,
      "loss": 0.8502,
      "step": 70
    },
    {
      "epoch": 0.75,
      "learning_rate": 2.827793169273628e-05,
      "loss": 0.773,
      "step": 75
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.745625171786751e-05,
      "loss": 0.7943,
      "step": 80
    },
    {
      "epoch": 0.85,
      "learning_rate": 4.7401434185877724e-05,
      "loss": 0.8335,
      "step": 85
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.786859569823979e-05,
      "loss": 0.7886,
      "step": 90
    },
    {
      "epoch": 0.95,
      "learning_rate": 6.860000000000016e-05,
      "loss": 0.7602,
      "step": 95
    },
    {
      "epoch": 1.0,
      "learning_rate": 7.933140430175958e-05,
      "loss": 0.6606,
      "step": 100
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.7026481628417969,
      "eval_runtime": 3.0708,
      "eval_samples_per_second": 43.311,
      "eval_steps_per_second": 5.536,
      "step": 100
    }
  ],
  "max_steps": 400,
  "num_train_epochs": 4,
  "total_flos": 103602290688000.0,
  "trial_name": null,
  "trial_params": null
}