test-finetune / trainer_state.json

Upload 13 files

f48a1cb about 2 years ago

12.7 kB

	{
	"best_metric": 0.15806905925273895,
	"best_model_checkpoint": "./results/checkpoint-975",
	"epoch": 14.285714285714286,
	"eval_steps": 25,
	"global_step": 1000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.36,
	"learning_rate": 0.0002,
	"loss": 2.1731,
	"step": 25
	},
	{
	"epoch": 0.36,
	"eval_loss": 1.4641685485839844,
	"eval_runtime": 2.4526,
	"eval_samples_per_second": 22.833,
	"eval_steps_per_second": 2.854,
	"step": 25
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.0002,
	"loss": 1.3444,
	"step": 50
	},
	{
	"epoch": 0.71,
	"eval_loss": 1.161795735359192,
	"eval_runtime": 2.4547,
	"eval_samples_per_second": 22.813,
	"eval_steps_per_second": 2.852,
	"step": 50
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.0002,
	"loss": 1.0438,
	"step": 75
	},
	{
	"epoch": 1.07,
	"eval_loss": 0.938343346118927,
	"eval_runtime": 2.4539,
	"eval_samples_per_second": 22.821,
	"eval_steps_per_second": 2.853,
	"step": 75
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.0002,
	"loss": 0.9378,
	"step": 100
	},
	{
	"epoch": 1.43,
	"eval_loss": 0.8406057357788086,
	"eval_runtime": 2.4541,
	"eval_samples_per_second": 22.819,
	"eval_steps_per_second": 2.852,
	"step": 100
	},
	{
	"epoch": 1.79,
	"learning_rate": 0.0002,
	"loss": 0.8852,
	"step": 125
	},
	{
	"epoch": 1.79,
	"eval_loss": 0.7779091000556946,
	"eval_runtime": 2.4548,
	"eval_samples_per_second": 22.812,
	"eval_steps_per_second": 2.852,
	"step": 125
	},
	{
	"epoch": 2.14,
	"learning_rate": 0.0002,
	"loss": 0.8243,
	"step": 150
	},
	{
	"epoch": 2.14,
	"eval_loss": 0.7215237021446228,
	"eval_runtime": 2.4543,
	"eval_samples_per_second": 22.817,
	"eval_steps_per_second": 2.852,
	"step": 150
	},
	{
	"epoch": 2.5,
	"learning_rate": 0.0002,
	"loss": 0.7581,
	"step": 175
	},
	{
	"epoch": 2.5,
	"eval_loss": 0.6108285188674927,
	"eval_runtime": 2.4539,
	"eval_samples_per_second": 22.821,
	"eval_steps_per_second": 2.853,
	"step": 175
	},
	{
	"epoch": 2.86,
	"learning_rate": 0.0002,
	"loss": 0.6965,
	"step": 200
	},
	{
	"epoch": 2.86,
	"eval_loss": 0.5861143469810486,
	"eval_runtime": 2.4542,
	"eval_samples_per_second": 22.818,
	"eval_steps_per_second": 2.852,
	"step": 200
	},
	{
	"epoch": 3.21,
	"learning_rate": 0.0002,
	"loss": 0.6161,
	"step": 225
	},
	{
	"epoch": 3.21,
	"eval_loss": 0.5066039562225342,
	"eval_runtime": 2.4563,
	"eval_samples_per_second": 22.798,
	"eval_steps_per_second": 2.85,
	"step": 225
	},
	{
	"epoch": 3.57,
	"learning_rate": 0.0002,
	"loss": 0.5444,
	"step": 250
	},
	{
	"epoch": 3.57,
	"eval_loss": 0.45327526330947876,
	"eval_runtime": 2.4538,
	"eval_samples_per_second": 22.822,
	"eval_steps_per_second": 2.853,
	"step": 250
	},
	{
	"epoch": 3.93,
	"learning_rate": 0.0002,
	"loss": 0.5739,
	"step": 275
	},
	{
	"epoch": 3.93,
	"eval_loss": 0.4038705825805664,
	"eval_runtime": 2.4543,
	"eval_samples_per_second": 22.817,
	"eval_steps_per_second": 2.852,
	"step": 275
	},
	{
	"epoch": 4.29,
	"learning_rate": 0.0002,
	"loss": 0.4352,
	"step": 300
	},
	{
	"epoch": 4.29,
	"eval_loss": 0.3711726665496826,
	"eval_runtime": 2.4536,
	"eval_samples_per_second": 22.824,
	"eval_steps_per_second": 2.853,
	"step": 300
	},
	{
	"epoch": 4.64,
	"learning_rate": 0.0002,
	"loss": 0.4281,
	"step": 325
	},
	{
	"epoch": 4.64,
	"eval_loss": 0.3348071277141571,
	"eval_runtime": 2.4574,
	"eval_samples_per_second": 22.789,
	"eval_steps_per_second": 2.849,
	"step": 325
	},
	{
	"epoch": 5.0,
	"learning_rate": 0.0002,
	"loss": 0.4371,
	"step": 350
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.2986474633216858,
	"eval_runtime": 2.4531,
	"eval_samples_per_second": 22.829,
	"eval_steps_per_second": 2.854,
	"step": 350
	},
	{
	"epoch": 5.36,
	"learning_rate": 0.0002,
	"loss": 0.3143,
	"step": 375
	},
	{
	"epoch": 5.36,
	"eval_loss": 0.29203733801841736,
	"eval_runtime": 2.454,
	"eval_samples_per_second": 22.82,
	"eval_steps_per_second": 2.853,
	"step": 375
	},
	{
	"epoch": 5.71,
	"learning_rate": 0.0002,
	"loss": 0.3315,
	"step": 400
	},
	{
	"epoch": 5.71,
	"eval_loss": 0.26739758253097534,
	"eval_runtime": 2.4554,
	"eval_samples_per_second": 22.807,
	"eval_steps_per_second": 2.851,
	"step": 400
	},
	{
	"epoch": 6.07,
	"learning_rate": 0.0002,
	"loss": 0.3224,
	"step": 425
	},
	{
	"epoch": 6.07,
	"eval_loss": 0.2381574958562851,
	"eval_runtime": 2.4593,
	"eval_samples_per_second": 22.771,
	"eval_steps_per_second": 2.846,
	"step": 425
	},
	{
	"epoch": 6.43,
	"learning_rate": 0.0002,
	"loss": 0.2582,
	"step": 450
	},
	{
	"epoch": 6.43,
	"eval_loss": 0.2326308786869049,
	"eval_runtime": 2.4554,
	"eval_samples_per_second": 22.807,
	"eval_steps_per_second": 2.851,
	"step": 450
	},
	{
	"epoch": 6.79,
	"learning_rate": 0.0002,
	"loss": 0.2889,
	"step": 475
	},
	{
	"epoch": 6.79,
	"eval_loss": 0.22920013964176178,
	"eval_runtime": 2.4566,
	"eval_samples_per_second": 22.796,
	"eval_steps_per_second": 2.85,
	"step": 475
	},
	{
	"epoch": 7.14,
	"learning_rate": 0.0002,
	"loss": 0.2766,
	"step": 500
	},
	{
	"epoch": 7.14,
	"eval_loss": 0.22648800909519196,
	"eval_runtime": 2.4544,
	"eval_samples_per_second": 22.816,
	"eval_steps_per_second": 2.852,
	"step": 500
	},
	{
	"epoch": 7.5,
	"learning_rate": 0.0002,
	"loss": 0.2476,
	"step": 525
	},
	{
	"epoch": 7.5,
	"eval_loss": 0.19777119159698486,
	"eval_runtime": 2.4535,
	"eval_samples_per_second": 22.824,
	"eval_steps_per_second": 2.853,
	"step": 525
	},
	{
	"epoch": 7.86,
	"learning_rate": 0.0002,
	"loss": 0.2383,
	"step": 550
	},
	{
	"epoch": 7.86,
	"eval_loss": 0.1977979987859726,
	"eval_runtime": 2.4538,
	"eval_samples_per_second": 22.821,
	"eval_steps_per_second": 2.853,
	"step": 550
	},
	{
	"epoch": 8.21,
	"learning_rate": 0.0002,
	"loss": 0.2318,
	"step": 575
	},
	{
	"epoch": 8.21,
	"eval_loss": 0.19671748578548431,
	"eval_runtime": 2.4545,
	"eval_samples_per_second": 22.815,
	"eval_steps_per_second": 2.852,
	"step": 575
	},
	{
	"epoch": 8.57,
	"learning_rate": 0.0002,
	"loss": 0.2159,
	"step": 600
	},
	{
	"epoch": 8.57,
	"eval_loss": 0.1927504688501358,
	"eval_runtime": 2.4546,
	"eval_samples_per_second": 22.815,
	"eval_steps_per_second": 2.852,
	"step": 600
	},
	{
	"epoch": 8.93,
	"learning_rate": 0.0002,
	"loss": 0.2332,
	"step": 625
	},
	{
	"epoch": 8.93,
	"eval_loss": 0.18296389281749725,
	"eval_runtime": 2.4543,
	"eval_samples_per_second": 22.817,
	"eval_steps_per_second": 2.852,
	"step": 625
	},
	{
	"epoch": 9.29,
	"learning_rate": 0.0002,
	"loss": 0.2088,
	"step": 650
	},
	{
	"epoch": 9.29,
	"eval_loss": 0.19335438311100006,
	"eval_runtime": 2.4553,
	"eval_samples_per_second": 22.808,
	"eval_steps_per_second": 2.851,
	"step": 650
	},
	{
	"epoch": 9.64,
	"learning_rate": 0.0002,
	"loss": 0.2072,
	"step": 675
	},
	{
	"epoch": 9.64,
	"eval_loss": 0.18041561543941498,
	"eval_runtime": 2.4547,
	"eval_samples_per_second": 22.813,
	"eval_steps_per_second": 2.852,
	"step": 675
	},
	{
	"epoch": 10.0,
	"learning_rate": 0.0002,
	"loss": 0.2233,
	"step": 700
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.18061913549900055,
	"eval_runtime": 2.454,
	"eval_samples_per_second": 22.82,
	"eval_steps_per_second": 2.853,
	"step": 700
	},
	{
	"epoch": 10.36,
	"learning_rate": 0.0002,
	"loss": 0.1796,
	"step": 725
	},
	{
	"epoch": 10.36,
	"eval_loss": 0.17700645327568054,
	"eval_runtime": 2.4539,
	"eval_samples_per_second": 22.821,
	"eval_steps_per_second": 2.853,
	"step": 725
	},
	{
	"epoch": 10.71,
	"learning_rate": 0.0002,
	"loss": 0.215,
	"step": 750
	},
	{
	"epoch": 10.71,
	"eval_loss": 0.18451173603534698,
	"eval_runtime": 2.4555,
	"eval_samples_per_second": 22.806,
	"eval_steps_per_second": 2.851,
	"step": 750
	},
	{
	"epoch": 11.07,
	"learning_rate": 0.0002,
	"loss": 0.1894,
	"step": 775
	},
	{
	"epoch": 11.07,
	"eval_loss": 0.17726834118366241,
	"eval_runtime": 2.4547,
	"eval_samples_per_second": 22.813,
	"eval_steps_per_second": 2.852,
	"step": 775
	},
	{
	"epoch": 11.43,
	"learning_rate": 0.0002,
	"loss": 0.1899,
	"step": 800
	},
	{
	"epoch": 11.43,
	"eval_loss": 0.17982231080532074,
	"eval_runtime": 2.4541,
	"eval_samples_per_second": 22.819,
	"eval_steps_per_second": 2.852,
	"step": 800
	},
	{
	"epoch": 11.79,
	"learning_rate": 0.0002,
	"loss": 0.2009,
	"step": 825
	},
	{
	"epoch": 11.79,
	"eval_loss": 0.1710078865289688,
	"eval_runtime": 2.4543,
	"eval_samples_per_second": 22.817,
	"eval_steps_per_second": 2.852,
	"step": 825
	},
	{
	"epoch": 12.14,
	"learning_rate": 0.0002,
	"loss": 0.1859,
	"step": 850
	},
	{
	"epoch": 12.14,
	"eval_loss": 0.1884012222290039,
	"eval_runtime": 2.4546,
	"eval_samples_per_second": 22.814,
	"eval_steps_per_second": 2.852,
	"step": 850
	},
	{
	"epoch": 12.5,
	"learning_rate": 0.0002,
	"loss": 0.1854,
	"step": 875
	},
	{
	"epoch": 12.5,
	"eval_loss": 0.16743424534797668,
	"eval_runtime": 2.4539,
	"eval_samples_per_second": 22.821,
	"eval_steps_per_second": 2.853,
	"step": 875
	},
	{
	"epoch": 12.86,
	"learning_rate": 0.0002,
	"loss": 0.191,
	"step": 900
	},
	{
	"epoch": 12.86,
	"eval_loss": 0.16949959099292755,
	"eval_runtime": 2.4543,
	"eval_samples_per_second": 22.817,
	"eval_steps_per_second": 2.852,
	"step": 900
	},
	{
	"epoch": 13.21,
	"learning_rate": 0.0002,
	"loss": 0.1912,
	"step": 925
	},
	{
	"epoch": 13.21,
	"eval_loss": 0.15851029753684998,
	"eval_runtime": 2.4557,
	"eval_samples_per_second": 22.804,
	"eval_steps_per_second": 2.851,
	"step": 925
	},
	{
	"epoch": 13.57,
	"learning_rate": 0.0002,
	"loss": 0.1763,
	"step": 950
	},
	{
	"epoch": 13.57,
	"eval_loss": 0.17656584084033966,
	"eval_runtime": 2.4541,
	"eval_samples_per_second": 22.819,
	"eval_steps_per_second": 2.852,
	"step": 950
	},
	{
	"epoch": 13.93,
	"learning_rate": 0.0002,
	"loss": 0.1953,
	"step": 975
	},
	{
	"epoch": 13.93,
	"eval_loss": 0.15806905925273895,
	"eval_runtime": 2.455,
	"eval_samples_per_second": 22.811,
	"eval_steps_per_second": 2.851,
	"step": 975
	},
	{
	"epoch": 14.29,
	"learning_rate": 0.0002,
	"loss": 0.1732,
	"step": 1000
	},
	{
	"epoch": 14.29,
	"eval_loss": 0.18219564855098724,
	"eval_runtime": 2.4533,
	"eval_samples_per_second": 22.826,
	"eval_steps_per_second": 2.853,
	"step": 1000
	}
	],
	"logging_steps": 25,
	"max_steps": 1000,
	"num_train_epochs": 15,
	"save_steps": 25,
	"total_flos": 239052193136640.0,
	"trial_name": null,
	"trial_params": null
	}