{
  "best_metric": 1.0368528366088867,
  "best_model_checkpoint": "/kaggle/working/LLaMA-Factory/output/dolphin-2.9-llama3-8b-GER/checkpoint-100",
  "epoch": 0.11778563015312132,
  "eval_steps": 100,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 0.5445218086242676,
      "learning_rate": 2.5e-06,
      "loss": 1.2105,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.4362960457801819,
      "learning_rate": 5e-06,
      "loss": 0.9311,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 0.5098525881767273,
      "learning_rate": 7.5e-06,
      "loss": 1.3604,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 1.0830402374267578,
      "learning_rate": 1e-05,
      "loss": 1.5808,
      "step": 4
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5936903953552246,
      "learning_rate": 1.25e-05,
      "loss": 1.248,
      "step": 5
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.7212775945663452,
      "learning_rate": 1.5e-05,
      "loss": 1.2712,
      "step": 6
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.4733128845691681,
      "learning_rate": 1.75e-05,
      "loss": 1.3005,
      "step": 7
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.6236618757247925,
      "learning_rate": 2e-05,
      "loss": 1.3398,
      "step": 8
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5326029658317566,
      "learning_rate": 2.25e-05,
      "loss": 1.0476,
      "step": 9
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.5021428465843201,
      "learning_rate": 2.5e-05,
      "loss": 1.1245,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.46588796377182007,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 1.1041,
      "step": 11
    },
    {
      "epoch": 0.01,
      "grad_norm": 0.936045229434967,
      "learning_rate": 3e-05,
      "loss": 1.3201,
      "step": 12
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5649005770683289,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 1.1596,
      "step": 13
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5679148435592651,
      "learning_rate": 3.5e-05,
      "loss": 1.2501,
      "step": 14
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8638319373130798,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 1.237,
      "step": 15
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5722486972808838,
      "learning_rate": 4e-05,
      "loss": 1.2616,
      "step": 16
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5802999138832092,
      "learning_rate": 4.25e-05,
      "loss": 0.9578,
      "step": 17
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2806150913238525,
      "learning_rate": 4.5e-05,
      "loss": 1.3815,
      "step": 18
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.5839210748672485,
      "learning_rate": 4.75e-05,
      "loss": 1.2619,
      "step": 19
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7132797837257385,
      "learning_rate": 5e-05,
      "loss": 1.2842,
      "step": 20
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7936571836471558,
      "learning_rate": 5.25e-05,
      "loss": 1.3991,
      "step": 21
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7268731594085693,
      "learning_rate": 5.500000000000001e-05,
      "loss": 1.2217,
      "step": 22
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6649657487869263,
      "learning_rate": 5.7499999999999995e-05,
      "loss": 1.2485,
      "step": 23
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.45912331342697144,
      "learning_rate": 6e-05,
      "loss": 1.1452,
      "step": 24
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.49475613236427307,
      "learning_rate": 6.25e-05,
      "loss": 1.256,
      "step": 25
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6027999520301819,
      "learning_rate": 6.500000000000001e-05,
      "loss": 1.2267,
      "step": 26
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.48380520939826965,
      "learning_rate": 6.750000000000001e-05,
      "loss": 1.202,
      "step": 27
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6623361706733704,
      "learning_rate": 7e-05,
      "loss": 1.3924,
      "step": 28
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6632773280143738,
      "learning_rate": 7.25e-05,
      "loss": 1.2443,
      "step": 29
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5974243879318237,
      "learning_rate": 7.500000000000001e-05,
      "loss": 1.0591,
      "step": 30
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7902927398681641,
      "learning_rate": 7.75e-05,
      "loss": 1.0192,
      "step": 31
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7081462144851685,
      "learning_rate": 8e-05,
      "loss": 1.0955,
      "step": 32
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4744333326816559,
      "learning_rate": 8.25e-05,
      "loss": 1.0564,
      "step": 33
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.703999400138855,
      "learning_rate": 8.5e-05,
      "loss": 1.1022,
      "step": 34
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5378603339195251,
      "learning_rate": 8.75e-05,
      "loss": 1.063,
      "step": 35
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6105419397354126,
      "learning_rate": 9e-05,
      "loss": 0.9748,
      "step": 36
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6250177025794983,
      "learning_rate": 9.250000000000001e-05,
      "loss": 0.9951,
      "step": 37
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6306005716323853,
      "learning_rate": 9.5e-05,
      "loss": 0.9875,
      "step": 38
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8635210990905762,
      "learning_rate": 9.75e-05,
      "loss": 1.1825,
      "step": 39
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5938963890075684,
      "learning_rate": 0.0001,
      "loss": 0.9678,
      "step": 40
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5765062570571899,
      "learning_rate": 0.0001025,
      "loss": 1.1031,
      "step": 41
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5162666440010071,
      "learning_rate": 0.000105,
      "loss": 1.0831,
      "step": 42
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.8675170540809631,
      "learning_rate": 0.0001075,
      "loss": 1.0034,
      "step": 43
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.44026264548301697,
      "learning_rate": 0.00011000000000000002,
      "loss": 0.9607,
      "step": 44
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4922897219657898,
      "learning_rate": 0.00011250000000000001,
      "loss": 1.0251,
      "step": 45
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5505048632621765,
      "learning_rate": 0.00011499999999999999,
      "loss": 0.6948,
      "step": 46
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5226988792419434,
      "learning_rate": 0.00011750000000000001,
      "loss": 1.2259,
      "step": 47
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5105571150779724,
      "learning_rate": 0.00012,
      "loss": 1.1239,
      "step": 48
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.0914857387542725,
      "learning_rate": 0.00012250000000000002,
      "loss": 1.4032,
      "step": 49
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.4611998498439789,
      "learning_rate": 0.000125,
      "loss": 1.1481,
      "step": 50
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5243968367576599,
      "learning_rate": 0.0001275,
      "loss": 1.0514,
      "step": 51
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.48045778274536133,
      "learning_rate": 0.00013000000000000002,
      "loss": 1.1552,
      "step": 52
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5543797612190247,
      "learning_rate": 0.0001325,
      "loss": 1.035,
      "step": 53
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5148913264274597,
      "learning_rate": 0.00013500000000000003,
      "loss": 0.9244,
      "step": 54
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5708130598068237,
      "learning_rate": 0.0001375,
      "loss": 1.2272,
      "step": 55
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7507888078689575,
      "learning_rate": 0.00014,
      "loss": 1.1196,
      "step": 56
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5411068201065063,
      "learning_rate": 0.00014250000000000002,
      "loss": 1.1444,
      "step": 57
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7314138412475586,
      "learning_rate": 0.000145,
      "loss": 1.3451,
      "step": 58
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5134022831916809,
      "learning_rate": 0.0001475,
      "loss": 0.8021,
      "step": 59
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7859703302383423,
      "learning_rate": 0.00015000000000000001,
      "loss": 0.952,
      "step": 60
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.4740566611289978,
      "learning_rate": 0.0001525,
      "loss": 0.8878,
      "step": 61
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8245677947998047,
      "learning_rate": 0.000155,
      "loss": 1.4341,
      "step": 62
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5067218542098999,
      "learning_rate": 0.0001575,
      "loss": 0.8404,
      "step": 63
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.40824806690216064,
      "learning_rate": 0.00016,
      "loss": 1.0943,
      "step": 64
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.428151935338974,
      "learning_rate": 0.00016250000000000002,
      "loss": 1.0819,
      "step": 65
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.437532901763916,
      "learning_rate": 0.000165,
      "loss": 1.0461,
      "step": 66
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.4619809091091156,
      "learning_rate": 0.0001675,
      "loss": 1.0232,
      "step": 67
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3247042894363403,
      "learning_rate": 0.00017,
      "loss": 1.218,
      "step": 68
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5896454453468323,
      "learning_rate": 0.00017250000000000002,
      "loss": 1.1953,
      "step": 69
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5605736970901489,
      "learning_rate": 0.000175,
      "loss": 1.2542,
      "step": 70
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.36923155188560486,
      "learning_rate": 0.0001775,
      "loss": 0.7096,
      "step": 71
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6809273362159729,
      "learning_rate": 0.00018,
      "loss": 1.1959,
      "step": 72
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.42645493149757385,
      "learning_rate": 0.0001825,
      "loss": 1.1829,
      "step": 73
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7621450424194336,
      "learning_rate": 0.00018500000000000002,
      "loss": 1.1599,
      "step": 74
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5299301743507385,
      "learning_rate": 0.0001875,
      "loss": 1.0546,
      "step": 75
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.484611451625824,
      "learning_rate": 0.00019,
      "loss": 1.0854,
      "step": 76
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4027417004108429,
      "learning_rate": 0.00019250000000000002,
      "loss": 0.7812,
      "step": 77
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7537221908569336,
      "learning_rate": 0.000195,
      "loss": 0.9719,
      "step": 78
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.45811474323272705,
      "learning_rate": 0.00019750000000000003,
      "loss": 0.9684,
      "step": 79
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5426852107048035,
      "learning_rate": 0.0002,
      "loss": 0.9451,
      "step": 80
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.48964977264404297,
      "learning_rate": 0.000199739921976593,
      "loss": 1.0807,
      "step": 81
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6225113272666931,
      "learning_rate": 0.00019947984395318597,
      "loss": 1.1913,
      "step": 82
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.47157713770866394,
      "learning_rate": 0.00019921976592977893,
      "loss": 1.0392,
      "step": 83
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.42048129439353943,
      "learning_rate": 0.0001989596879063719,
      "loss": 0.8439,
      "step": 84
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4129664897918701,
      "learning_rate": 0.0001986996098829649,
      "loss": 1.1025,
      "step": 85
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5610629320144653,
      "learning_rate": 0.00019843953185955788,
      "loss": 0.9368,
      "step": 86
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4288642406463623,
      "learning_rate": 0.00019817945383615086,
      "loss": 0.9711,
      "step": 87
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.572507917881012,
      "learning_rate": 0.0001979193758127438,
      "loss": 0.9739,
      "step": 88
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5115912556648254,
      "learning_rate": 0.0001976592977893368,
      "loss": 0.9356,
      "step": 89
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.608063280582428,
      "learning_rate": 0.00019739921976592978,
      "loss": 1.2459,
      "step": 90
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0171502828598022,
      "learning_rate": 0.00019713914174252276,
      "loss": 1.0629,
      "step": 91
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.514552116394043,
      "learning_rate": 0.00019687906371911574,
      "loss": 0.9646,
      "step": 92
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4363428056240082,
      "learning_rate": 0.00019661898569570872,
      "loss": 0.8659,
      "step": 93
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4470008611679077,
      "learning_rate": 0.0001963589076723017,
      "loss": 1.0338,
      "step": 94
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5710871815681458,
      "learning_rate": 0.0001960988296488947,
      "loss": 0.946,
      "step": 95
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6456964612007141,
      "learning_rate": 0.00019583875162548767,
      "loss": 1.0956,
      "step": 96
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.45742425322532654,
      "learning_rate": 0.00019557867360208065,
      "loss": 0.7985,
      "step": 97
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9953218698501587,
      "learning_rate": 0.0001953185955786736,
      "loss": 0.9476,
      "step": 98
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5075244307518005,
      "learning_rate": 0.0001950585175552666,
      "loss": 1.1704,
      "step": 99
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7076822519302368,
      "learning_rate": 0.00019479843953185957,
      "loss": 1.2054,
      "step": 100
    },
    {
      "epoch": 0.12,
      "eval_loss": 1.0368528366088867,
      "eval_runtime": 547.1826,
      "eval_samples_per_second": 2.76,
      "eval_steps_per_second": 1.38,
      "step": 100
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 849,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "total_flos": 4.587027390739251e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}