videberta-base_1024 / checkpoint-800 /trainer_state.json

Training in progress, step 800, checkpoint

87e0465 about 1 year ago

4.28 kB

	{
	"best_metric": 0.5628103017807007,
	"best_model_checkpoint": "/kaggle/output/checkpoint-600",
	"epoch": 1.6528925619834711,
	"eval_steps": 50,
	"global_step": 800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.6979,
	"step": 1
	},
	{
	"epoch": 0.1,
	"eval_accuracy": 0.75,
	"eval_loss": 0.6723740696907043,
	"eval_runtime": 28.903,
	"eval_samples_per_second": 40.965,
	"eval_steps_per_second": 20.482,
	"step": 50
	},
	{
	"epoch": 0.21,
	"eval_accuracy": 0.75,
	"eval_loss": 0.6272028088569641,
	"eval_runtime": 28.756,
	"eval_samples_per_second": 41.174,
	"eval_steps_per_second": 20.587,
	"step": 100
	},
	{
	"epoch": 0.31,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5726658701896667,
	"eval_runtime": 28.7791,
	"eval_samples_per_second": 41.141,
	"eval_steps_per_second": 20.57,
	"step": 150
	},
	{
	"epoch": 0.41,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5658872723579407,
	"eval_runtime": 28.8005,
	"eval_samples_per_second": 41.11,
	"eval_steps_per_second": 20.555,
	"step": 200
	},
	{
	"epoch": 0.52,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5675005316734314,
	"eval_runtime": 28.7479,
	"eval_samples_per_second": 41.186,
	"eval_steps_per_second": 20.593,
	"step": 250
	},
	{
	"epoch": 0.62,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5632852911949158,
	"eval_runtime": 28.807,
	"eval_samples_per_second": 41.101,
	"eval_steps_per_second": 20.551,
	"step": 300
	},
	{
	"epoch": 0.72,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5931060910224915,
	"eval_runtime": 29.0233,
	"eval_samples_per_second": 40.795,
	"eval_steps_per_second": 20.397,
	"step": 350
	},
	{
	"epoch": 0.83,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5643754005432129,
	"eval_runtime": 28.8155,
	"eval_samples_per_second": 41.089,
	"eval_steps_per_second": 20.545,
	"step": 400
	},
	{
	"epoch": 0.93,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5633080005645752,
	"eval_runtime": 29.0501,
	"eval_samples_per_second": 40.757,
	"eval_steps_per_second": 20.379,
	"step": 450
	},
	{
	"epoch": 1.03,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5926231145858765,
	"eval_runtime": 28.7918,
	"eval_samples_per_second": 41.123,
	"eval_steps_per_second": 20.561,
	"step": 500
	},
	{
	"epoch": 1.14,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5648908019065857,
	"eval_runtime": 28.8558,
	"eval_samples_per_second": 41.032,
	"eval_steps_per_second": 20.516,
	"step": 550
	},
	{
	"epoch": 1.24,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5628103017807007,
	"eval_runtime": 28.9143,
	"eval_samples_per_second": 40.949,
	"eval_steps_per_second": 20.474,
	"step": 600
	},
	{
	"epoch": 1.34,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5630568265914917,
	"eval_runtime": 28.8676,
	"eval_samples_per_second": 41.015,
	"eval_steps_per_second": 20.507,
	"step": 650
	},
	{
	"epoch": 1.45,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5687929391860962,
	"eval_runtime": 28.9082,
	"eval_samples_per_second": 40.957,
	"eval_steps_per_second": 20.479,
	"step": 700
	},
	{
	"epoch": 1.55,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5623889565467834,
	"eval_runtime": 28.8406,
	"eval_samples_per_second": 41.053,
	"eval_steps_per_second": 20.527,
	"step": 750
	},
	{
	"epoch": 1.65,
	"eval_accuracy": 0.75,
	"eval_loss": 0.5629884600639343,
	"eval_runtime": 28.8402,
	"eval_samples_per_second": 41.054,
	"eval_steps_per_second": 20.527,
	"step": 800
	}
	],
	"logging_steps": 1000,
	"max_steps": 1000,
	"num_train_epochs": 3,
	"save_steps": 100,
	"total_flos": 2579192374164480.0,
	"trial_name": null,
	"trial_params": null
	}