Llama-3.1-8B-Instruct-land-chat-template / trainer_state.json

Upload model files with Nebius access

21b0b84 verified 9 months ago

16.7 kB

	{
	"best_metric": 1.1622273921966553,
	"best_model_checkpoint": "./outputs/instruct-lora-8b-aplly_chat_template-land/checkpoint-740",
	"epoch": 1.0652463382157125,
	"eval_steps": 20,
	"global_step": 800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0013315579227696406,
	"eval_loss": 1.4733461141586304,
	"eval_runtime": 59.4361,
	"eval_samples_per_second": 22.461,
	"eval_steps_per_second": 5.619,
	"step": 1
	},
	{
	"epoch": 0.02663115845539281,
	"grad_norm": 0.7614122629165649,
	"learning_rate": 2.666666666666667e-06,
	"loss": 1.4194,
	"step": 20
	},
	{
	"epoch": 0.02663115845539281,
	"eval_loss": 1.471280813217163,
	"eval_runtime": 57.1574,
	"eval_samples_per_second": 23.357,
	"eval_steps_per_second": 5.844,
	"step": 20
	},
	{
	"epoch": 0.05326231691078562,
	"grad_norm": 0.7800308465957642,
	"learning_rate": 5.333333333333334e-06,
	"loss": 1.376,
	"step": 40
	},
	{
	"epoch": 0.05326231691078562,
	"eval_loss": 1.4474345445632935,
	"eval_runtime": 57.2352,
	"eval_samples_per_second": 23.325,
	"eval_steps_per_second": 5.836,
	"step": 40
	},
	{
	"epoch": 0.07989347536617843,
	"grad_norm": 0.8508164286613464,
	"learning_rate": 8e-06,
	"loss": 1.3563,
	"step": 60
	},
	{
	"epoch": 0.07989347536617843,
	"eval_loss": 1.3645858764648438,
	"eval_runtime": 57.1364,
	"eval_samples_per_second": 23.365,
	"eval_steps_per_second": 5.846,
	"step": 60
	},
	{
	"epoch": 0.10652463382157124,
	"grad_norm": 0.8896499276161194,
	"learning_rate": 1.0666666666666667e-05,
	"loss": 1.2653,
	"step": 80
	},
	{
	"epoch": 0.10652463382157124,
	"eval_loss": 1.303858757019043,
	"eval_runtime": 57.1088,
	"eval_samples_per_second": 23.376,
	"eval_steps_per_second": 5.848,
	"step": 80
	},
	{
	"epoch": 0.13315579227696406,
	"grad_norm": 0.9267684817314148,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 1.2094,
	"step": 100
	},
	{
	"epoch": 0.13315579227696406,
	"eval_loss": 1.279226541519165,
	"eval_runtime": 59.6928,
	"eval_samples_per_second": 22.365,
	"eval_steps_per_second": 5.595,
	"step": 100
	},
	{
	"epoch": 0.15978695073235685,
	"grad_norm": 1.0457453727722168,
	"learning_rate": 1.6e-05,
	"loss": 1.1917,
	"step": 120
	},
	{
	"epoch": 0.15978695073235685,
	"eval_loss": 1.2594722509384155,
	"eval_runtime": 57.1101,
	"eval_samples_per_second": 23.376,
	"eval_steps_per_second": 5.848,
	"step": 120
	},
	{
	"epoch": 0.18641810918774968,
	"grad_norm": 1.1883381605148315,
	"learning_rate": 1.866666666666667e-05,
	"loss": 1.2034,
	"step": 140
	},
	{
	"epoch": 0.18641810918774968,
	"eval_loss": 1.2453105449676514,
	"eval_runtime": 57.085,
	"eval_samples_per_second": 23.386,
	"eval_steps_per_second": 5.851,
	"step": 140
	},
	{
	"epoch": 0.21304926764314247,
	"grad_norm": 1.2522987127304077,
	"learning_rate": 2.1333333333333335e-05,
	"loss": 1.1147,
	"step": 160
	},
	{
	"epoch": 0.21304926764314247,
	"eval_loss": 1.2352497577667236,
	"eval_runtime": 59.6977,
	"eval_samples_per_second": 22.363,
	"eval_steps_per_second": 5.595,
	"step": 160
	},
	{
	"epoch": 0.2396804260985353,
	"grad_norm": 1.3950749635696411,
	"learning_rate": 2.4e-05,
	"loss": 1.1172,
	"step": 180
	},
	{
	"epoch": 0.2396804260985353,
	"eval_loss": 1.2247178554534912,
	"eval_runtime": 57.1298,
	"eval_samples_per_second": 23.368,
	"eval_steps_per_second": 5.846,
	"step": 180
	},
	{
	"epoch": 0.2663115845539281,
	"grad_norm": 1.3889997005462646,
	"learning_rate": 2.6666666666666667e-05,
	"loss": 1.1148,
	"step": 200
	},
	{
	"epoch": 0.2663115845539281,
	"eval_loss": 1.2236417531967163,
	"eval_runtime": 57.1101,
	"eval_samples_per_second": 23.376,
	"eval_steps_per_second": 5.848,
	"step": 200
	},
	{
	"epoch": 0.2929427430093209,
	"grad_norm": 1.4289050102233887,
	"learning_rate": 2.9333333333333333e-05,
	"loss": 1.0828,
	"step": 220
	},
	{
	"epoch": 0.2929427430093209,
	"eval_loss": 1.217771291732788,
	"eval_runtime": 57.09,
	"eval_samples_per_second": 23.384,
	"eval_steps_per_second": 5.85,
	"step": 220
	},
	{
	"epoch": 0.3195739014647137,
	"grad_norm": 1.48817777633667,
	"learning_rate": 2.9995950624188135e-05,
	"loss": 1.0756,
	"step": 240
	},
	{
	"epoch": 0.3195739014647137,
	"eval_loss": 1.2135677337646484,
	"eval_runtime": 57.0597,
	"eval_samples_per_second": 23.397,
	"eval_steps_per_second": 5.854,
	"step": 240
	},
	{
	"epoch": 0.34620505992010653,
	"grad_norm": 1.4912829399108887,
	"learning_rate": 2.9977957806883764e-05,
	"loss": 1.0463,
	"step": 260
	},
	{
	"epoch": 0.34620505992010653,
	"eval_loss": 1.207130789756775,
	"eval_runtime": 57.0489,
	"eval_samples_per_second": 23.401,
	"eval_steps_per_second": 5.855,
	"step": 260
	},
	{
	"epoch": 0.37283621837549935,
	"grad_norm": 1.4056388139724731,
	"learning_rate": 2.99455888692835e-05,
	"loss": 1.0452,
	"step": 280
	},
	{
	"epoch": 0.37283621837549935,
	"eval_loss": 1.2046023607254028,
	"eval_runtime": 57.0853,
	"eval_samples_per_second": 23.386,
	"eval_steps_per_second": 5.851,
	"step": 280
	},
	{
	"epoch": 0.3994673768308921,
	"grad_norm": 1.4942606687545776,
	"learning_rate": 2.989887487969095e-05,
	"loss": 1.0261,
	"step": 300
	},
	{
	"epoch": 0.3994673768308921,
	"eval_loss": 1.1982561349868774,
	"eval_runtime": 57.1051,
	"eval_samples_per_second": 23.378,
	"eval_steps_per_second": 5.849,
	"step": 300
	},
	{
	"epoch": 0.42609853528628494,
	"grad_norm": 1.6378928422927856,
	"learning_rate": 2.983786067505537e-05,
	"loss": 1.0198,
	"step": 320
	},
	{
	"epoch": 0.42609853528628494,
	"eval_loss": 1.197502851486206,
	"eval_runtime": 59.5901,
	"eval_samples_per_second": 22.403,
	"eval_steps_per_second": 5.605,
	"step": 320
	},
	{
	"epoch": 0.45272969374167776,
	"grad_norm": 1.569143533706665,
	"learning_rate": 2.9762604817936267e-05,
	"loss": 1.0101,
	"step": 340
	},
	{
	"epoch": 0.45272969374167776,
	"eval_loss": 1.197273850440979,
	"eval_runtime": 57.1144,
	"eval_samples_per_second": 23.374,
	"eval_steps_per_second": 5.848,
	"step": 340
	},
	{
	"epoch": 0.4793608521970706,
	"grad_norm": 1.6125699281692505,
	"learning_rate": 2.9673179540294035e-05,
	"loss": 1.0121,
	"step": 360
	},
	{
	"epoch": 0.4793608521970706,
	"eval_loss": 1.1948621273040771,
	"eval_runtime": 57.1203,
	"eval_samples_per_second": 23.372,
	"eval_steps_per_second": 5.847,
	"step": 360
	},
	{
	"epoch": 0.5059920106524634,
	"grad_norm": 1.5121594667434692,
	"learning_rate": 2.9569670674160343e-05,
	"loss": 1.0169,
	"step": 380
	},
	{
	"epoch": 0.5059920106524634,
	"eval_loss": 1.1911152601242065,
	"eval_runtime": 60.0674,
	"eval_samples_per_second": 22.225,
	"eval_steps_per_second": 5.56,
	"step": 380
	},
	{
	"epoch": 0.5326231691078562,
	"grad_norm": 1.5439465045928955,
	"learning_rate": 2.945217756925498e-05,
	"loss": 0.9799,
	"step": 400
	},
	{
	"epoch": 0.5326231691078562,
	"eval_loss": 1.1894199848175049,
	"eval_runtime": 57.1247,
	"eval_samples_per_second": 23.37,
	"eval_steps_per_second": 5.847,
	"step": 400
	},
	{
	"epoch": 0.559254327563249,
	"grad_norm": 1.857911229133606,
	"learning_rate": 2.9320812997628184e-05,
	"loss": 0.9872,
	"step": 420
	},
	{
	"epoch": 0.559254327563249,
	"eval_loss": 1.1862047910690308,
	"eval_runtime": 57.1282,
	"eval_samples_per_second": 23.368,
	"eval_steps_per_second": 5.847,
	"step": 420
	},
	{
	"epoch": 0.5858854860186418,
	"grad_norm": 1.6074450016021729,
	"learning_rate": 2.9175703045419906e-05,
	"loss": 0.988,
	"step": 440
	},
	{
	"epoch": 0.5858854860186418,
	"eval_loss": 1.184722661972046,
	"eval_runtime": 57.1666,
	"eval_samples_per_second": 23.353,
	"eval_steps_per_second": 5.843,
	"step": 440
	},
	{
	"epoch": 0.6125166444740346,
	"grad_norm": 1.587011456489563,
	"learning_rate": 2.9016986991840035e-05,
	"loss": 0.9861,
	"step": 460
	},
	{
	"epoch": 0.6125166444740346,
	"eval_loss": 1.1814427375793457,
	"eval_runtime": 57.1111,
	"eval_samples_per_second": 23.375,
	"eval_steps_per_second": 5.848,
	"step": 460
	},
	{
	"epoch": 0.6391478029294274,
	"grad_norm": 1.6503058671951294,
	"learning_rate": 2.8844817175485628e-05,
	"loss": 0.9997,
	"step": 480
	},
	{
	"epoch": 0.6391478029294274,
	"eval_loss": 1.1827510595321655,
	"eval_runtime": 59.6344,
	"eval_samples_per_second": 22.386,
	"eval_steps_per_second": 5.601,
	"step": 480
	},
	{
	"epoch": 0.6657789613848203,
	"grad_norm": 1.4606473445892334,
	"learning_rate": 2.865935884812353e-05,
	"loss": 0.9756,
	"step": 500
	},
	{
	"epoch": 0.6657789613848203,
	"eval_loss": 1.177931785583496,
	"eval_runtime": 57.1613,
	"eval_samples_per_second": 23.355,
	"eval_steps_per_second": 5.843,
	"step": 500
	},
	{
	"epoch": 0.6924101198402131,
	"grad_norm": 1.6386032104492188,
	"learning_rate": 2.8460790016078664e-05,
	"loss": 0.9704,
	"step": 520
	},
	{
	"epoch": 0.6924101198402131,
	"eval_loss": 1.1767512559890747,
	"eval_runtime": 57.128,
	"eval_samples_per_second": 23.369,
	"eval_steps_per_second": 5.847,
	"step": 520
	},
	{
	"epoch": 0.7190412782956058,
	"grad_norm": 1.5629956722259521,
	"learning_rate": 2.824930126938027e-05,
	"loss": 0.9575,
	"step": 540
	},
	{
	"epoch": 0.7190412782956058,
	"eval_loss": 1.1756982803344727,
	"eval_runtime": 59.3596,
	"eval_samples_per_second": 22.49,
	"eval_steps_per_second": 5.627,
	"step": 540
	},
	{
	"epoch": 0.7456724367509987,
	"grad_norm": 1.9192149639129639,
	"learning_rate": 2.8025095598830108e-05,
	"loss": 0.9845,
	"step": 560
	},
	{
	"epoch": 0.7456724367509987,
	"eval_loss": 1.1744287014007568,
	"eval_runtime": 57.1096,
	"eval_samples_per_second": 23.376,
	"eval_steps_per_second": 5.848,
	"step": 560
	},
	{
	"epoch": 0.7723035952063915,
	"grad_norm": 1.5297322273254395,
	"learning_rate": 2.7788388201168096e-05,
	"loss": 0.9635,
	"step": 580
	},
	{
	"epoch": 0.7723035952063915,
	"eval_loss": 1.1726077795028687,
	"eval_runtime": 57.1106,
	"eval_samples_per_second": 23.376,
	"eval_steps_per_second": 5.848,
	"step": 580
	},
	{
	"epoch": 0.7989347536617842,
	"grad_norm": 1.5995993614196777,
	"learning_rate": 2.7539406272522557e-05,
	"loss": 1.0019,
	"step": 600
	},
	{
	"epoch": 0.7989347536617842,
	"eval_loss": 1.1684755086898804,
	"eval_runtime": 59.1165,
	"eval_samples_per_second": 22.583,
	"eval_steps_per_second": 5.65,
	"step": 600
	},
	{
	"epoch": 0.8255659121171771,
	"grad_norm": 1.989475131034851,
	"learning_rate": 2.7278388790343133e-05,
	"loss": 0.965,
	"step": 620
	},
	{
	"epoch": 0.8255659121171771,
	"eval_loss": 1.16959547996521,
	"eval_runtime": 57.5389,
	"eval_samples_per_second": 23.202,
	"eval_steps_per_second": 5.805,
	"step": 620
	},
	{
	"epoch": 0.8521970705725699,
	"grad_norm": 1.581007719039917,
	"learning_rate": 2.7005586284025857e-05,
	"loss": 0.9521,
	"step": 640
	},
	{
	"epoch": 0.8521970705725699,
	"eval_loss": 1.1685765981674194,
	"eval_runtime": 57.0994,
	"eval_samples_per_second": 23.38,
	"eval_steps_per_second": 5.849,
	"step": 640
	},
	{
	"epoch": 0.8788282290279628,
	"grad_norm": 1.8926242589950562,
	"learning_rate": 2.6721260594450408e-05,
	"loss": 0.9714,
	"step": 660
	},
	{
	"epoch": 0.8788282290279628,
	"eval_loss": 1.1654787063598633,
	"eval_runtime": 57.0989,
	"eval_samples_per_second": 23.38,
	"eval_steps_per_second": 5.849,
	"step": 660
	},
	{
	"epoch": 0.9054593874833555,
	"grad_norm": 1.7182027101516724,
	"learning_rate": 2.6425684622660387e-05,
	"loss": 0.9893,
	"step": 680
	},
	{
	"epoch": 0.9054593874833555,
	"eval_loss": 1.1642155647277832,
	"eval_runtime": 57.0492,
	"eval_samples_per_second": 23.401,
	"eval_steps_per_second": 5.855,
	"step": 680
	},
	{
	"epoch": 0.9320905459387483,
	"grad_norm": 1.7494959831237793,
	"learning_rate": 2.6119142067927872e-05,
	"loss": 0.9581,
	"step": 700
	},
	{
	"epoch": 0.9320905459387483,
	"eval_loss": 1.164635419845581,
	"eval_runtime": 59.4597,
	"eval_samples_per_second": 22.452,
	"eval_steps_per_second": 5.617,
	"step": 700
	},
	{
	"epoch": 0.9587217043941412,
	"grad_norm": 1.9605196714401245,
	"learning_rate": 2.5801927155453614e-05,
	"loss": 0.9165,
	"step": 720
	},
	{
	"epoch": 0.9587217043941412,
	"eval_loss": 1.164476752281189,
	"eval_runtime": 59.4987,
	"eval_samples_per_second": 22.437,
	"eval_steps_per_second": 5.614,
	"step": 720
	},
	{
	"epoch": 0.9853528628495339,
	"grad_norm": 1.636960744857788,
	"learning_rate": 2.5474344353964275e-05,
	"loss": 0.9849,
	"step": 740
	},
	{
	"epoch": 0.9853528628495339,
	"eval_loss": 1.1622273921966553,
	"eval_runtime": 57.4882,
	"eval_samples_per_second": 23.222,
	"eval_steps_per_second": 5.81,
	"step": 740
	},
	{
	"epoch": 1.0119840213049267,
	"grad_norm": 1.6740643978118896,
	"learning_rate": 2.513670808347771e-05,
	"loss": 0.905,
	"step": 760
	},
	{
	"epoch": 1.0119840213049267,
	"eval_loss": 1.1645617485046387,
	"eval_runtime": 57.4263,
	"eval_samples_per_second": 23.247,
	"eval_steps_per_second": 5.816,
	"step": 760
	},
	{
	"epoch": 1.0386151797603196,
	"grad_norm": 1.7723573446273804,
	"learning_rate": 2.4789342413516838e-05,
	"loss": 0.8868,
	"step": 780
	},
	{
	"epoch": 1.0386151797603196,
	"eval_loss": 1.1635513305664062,
	"eval_runtime": 57.091,
	"eval_samples_per_second": 23.384,
	"eval_steps_per_second": 5.85,
	"step": 780
	},
	{
	"epoch": 1.0652463382157125,
	"grad_norm": 1.7861186265945435,
	"learning_rate": 2.4432580752061735e-05,
	"loss": 0.8853,
	"step": 800
	},
	{
	"epoch": 1.0652463382157125,
	"eval_loss": 1.1627150774002075,
	"eval_runtime": 57.0672,
	"eval_samples_per_second": 23.393,
	"eval_steps_per_second": 5.853,
	"step": 800
	}
	],
	"logging_steps": 20,
	"max_steps": 2253,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 200,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 3
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.1795547152069427e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}