| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 40.0, | |
| "eval_steps": 500, | |
| "global_step": 80, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 8.483138084411621, | |
| "learning_rate": 0.0, | |
| "loss": 7.3643, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 8.504842758178711, | |
| "learning_rate": 4e-05, | |
| "loss": 7.3663, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 8.484148979187012, | |
| "learning_rate": 8e-05, | |
| "loss": 7.2955, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 9.30933952331543, | |
| "learning_rate": 0.00012, | |
| "loss": 6.8038, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 9.407090187072754, | |
| "learning_rate": 0.00016, | |
| "loss": 5.2094, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 3.3682186603546143, | |
| "learning_rate": 0.0002, | |
| "loss": 3.0057, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 3.8, | |
| "grad_norm": 0.6624460220336914, | |
| "learning_rate": 0.00019733333333333335, | |
| "loss": 2.542, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 4.0, | |
| "grad_norm": 0.6662009954452515, | |
| "learning_rate": 0.0001946666666666667, | |
| "loss": 2.3418, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 4.8, | |
| "grad_norm": 0.5901327729225159, | |
| "learning_rate": 0.000192, | |
| "loss": 2.2279, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 5.0, | |
| "grad_norm": 0.6286479234695435, | |
| "learning_rate": 0.00018933333333333335, | |
| "loss": 2.1752, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 5.8, | |
| "grad_norm": 0.6334818601608276, | |
| "learning_rate": 0.0001866666666666667, | |
| "loss": 2.0004, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 6.0, | |
| "grad_norm": 0.7078487277030945, | |
| "learning_rate": 0.00018400000000000003, | |
| "loss": 1.8715, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 6.8, | |
| "grad_norm": 0.7133411169052124, | |
| "learning_rate": 0.00018133333333333334, | |
| "loss": 1.7232, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 7.0, | |
| "grad_norm": 0.7030580639839172, | |
| "learning_rate": 0.00017866666666666668, | |
| "loss": 1.5365, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 7.8, | |
| "grad_norm": 0.7560809850692749, | |
| "learning_rate": 0.00017600000000000002, | |
| "loss": 1.4008, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 8.0, | |
| "grad_norm": 0.7857693433761597, | |
| "learning_rate": 0.00017333333333333334, | |
| "loss": 1.216, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 8.8, | |
| "grad_norm": 0.7887285351753235, | |
| "learning_rate": 0.00017066666666666668, | |
| "loss": 1.0345, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 9.0, | |
| "grad_norm": 0.804884672164917, | |
| "learning_rate": 0.000168, | |
| "loss": 0.8408, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 9.8, | |
| "grad_norm": 0.8250207304954529, | |
| "learning_rate": 0.00016533333333333333, | |
| "loss": 0.6544, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 10.0, | |
| "grad_norm": 1.0282177925109863, | |
| "learning_rate": 0.00016266666666666667, | |
| "loss": 0.4999, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 10.8, | |
| "grad_norm": 1.0329073667526245, | |
| "learning_rate": 0.00016, | |
| "loss": 0.3572, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 11.0, | |
| "grad_norm": 0.6659338474273682, | |
| "learning_rate": 0.00015733333333333333, | |
| "loss": 0.2318, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 11.8, | |
| "grad_norm": 0.5688400864601135, | |
| "learning_rate": 0.00015466666666666667, | |
| "loss": 0.1435, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 12.0, | |
| "grad_norm": 0.4795425236225128, | |
| "learning_rate": 0.000152, | |
| "loss": 0.0896, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 12.8, | |
| "grad_norm": 0.36164534091949463, | |
| "learning_rate": 0.00014933333333333335, | |
| "loss": 0.0577, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 13.0, | |
| "grad_norm": 0.41258323192596436, | |
| "learning_rate": 0.00014666666666666666, | |
| "loss": 0.0485, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 13.8, | |
| "grad_norm": 0.2597184181213379, | |
| "learning_rate": 0.000144, | |
| "loss": 0.0263, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 14.0, | |
| "grad_norm": 0.32541900873184204, | |
| "learning_rate": 0.00014133333333333334, | |
| "loss": 0.0144, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 14.8, | |
| "grad_norm": 0.1531914472579956, | |
| "learning_rate": 0.00013866666666666669, | |
| "loss": 0.0113, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 15.0, | |
| "grad_norm": 0.13021381199359894, | |
| "learning_rate": 0.00013600000000000003, | |
| "loss": 0.0064, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 15.8, | |
| "grad_norm": 0.05261532589793205, | |
| "learning_rate": 0.00013333333333333334, | |
| "loss": 0.0073, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 16.0, | |
| "grad_norm": 0.029978347942233086, | |
| "learning_rate": 0.00013066666666666668, | |
| "loss": 0.0026, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 16.8, | |
| "grad_norm": 0.055234625935554504, | |
| "learning_rate": 0.00012800000000000002, | |
| "loss": 0.0054, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 17.0, | |
| "grad_norm": 0.1521146595478058, | |
| "learning_rate": 0.00012533333333333334, | |
| "loss": 0.0056, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 17.8, | |
| "grad_norm": 0.04476846382021904, | |
| "learning_rate": 0.00012266666666666668, | |
| "loss": 0.0055, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 18.0, | |
| "grad_norm": 0.03301556780934334, | |
| "learning_rate": 0.00012, | |
| "loss": 0.0023, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 18.8, | |
| "grad_norm": 0.05019957944750786, | |
| "learning_rate": 0.00011733333333333334, | |
| "loss": 0.0053, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 19.0, | |
| "grad_norm": 0.1523505449295044, | |
| "learning_rate": 0.00011466666666666667, | |
| "loss": 0.0039, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 19.8, | |
| "grad_norm": 0.05199211835861206, | |
| "learning_rate": 0.00011200000000000001, | |
| "loss": 0.0053, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 20.0, | |
| "grad_norm": 0.046697743237018585, | |
| "learning_rate": 0.00010933333333333333, | |
| "loss": 0.0028, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 20.8, | |
| "grad_norm": 0.16294197738170624, | |
| "learning_rate": 0.00010666666666666667, | |
| "loss": 0.0063, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 21.0, | |
| "grad_norm": 0.010623338632285595, | |
| "learning_rate": 0.00010400000000000001, | |
| "loss": 0.0019, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 21.8, | |
| "grad_norm": 0.012429646216332912, | |
| "learning_rate": 0.00010133333333333335, | |
| "loss": 0.0017, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 22.0, | |
| "grad_norm": 0.06078414246439934, | |
| "learning_rate": 9.866666666666668e-05, | |
| "loss": 0.0093, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 22.8, | |
| "grad_norm": 0.020928211510181427, | |
| "learning_rate": 9.6e-05, | |
| "loss": 0.0036, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 23.0, | |
| "grad_norm": 0.1440170705318451, | |
| "learning_rate": 9.333333333333334e-05, | |
| "loss": 0.0035, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 23.8, | |
| "grad_norm": 0.027718741446733475, | |
| "learning_rate": 9.066666666666667e-05, | |
| "loss": 0.002, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 24.0, | |
| "grad_norm": 0.05264092981815338, | |
| "learning_rate": 8.800000000000001e-05, | |
| "loss": 0.0076, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 24.8, | |
| "grad_norm": 0.014711519703269005, | |
| "learning_rate": 8.533333333333334e-05, | |
| "loss": 0.0035, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 25.0, | |
| "grad_norm": 0.004301326349377632, | |
| "learning_rate": 8.266666666666667e-05, | |
| "loss": 0.0018, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 25.8, | |
| "grad_norm": 0.015990812331438065, | |
| "learning_rate": 8e-05, | |
| "loss": 0.003, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 26.0, | |
| "grad_norm": 0.015910780057311058, | |
| "learning_rate": 7.733333333333333e-05, | |
| "loss": 0.002, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 26.8, | |
| "grad_norm": 0.018094073981046677, | |
| "learning_rate": 7.466666666666667e-05, | |
| "loss": 0.0027, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 27.0, | |
| "grad_norm": 0.01692982390522957, | |
| "learning_rate": 7.2e-05, | |
| "loss": 0.002, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 27.8, | |
| "grad_norm": 0.01940099708735943, | |
| "learning_rate": 6.933333333333334e-05, | |
| "loss": 0.0029, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 28.0, | |
| "grad_norm": 0.014801948331296444, | |
| "learning_rate": 6.666666666666667e-05, | |
| "loss": 0.0017, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 28.8, | |
| "grad_norm": 0.017391081899404526, | |
| "learning_rate": 6.400000000000001e-05, | |
| "loss": 0.0025, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 29.0, | |
| "grad_norm": 0.003176660742610693, | |
| "learning_rate": 6.133333333333334e-05, | |
| "loss": 0.0015, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 29.8, | |
| "grad_norm": 0.014765232801437378, | |
| "learning_rate": 5.866666666666667e-05, | |
| "loss": 0.0027, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 30.0, | |
| "grad_norm": 0.012451699934899807, | |
| "learning_rate": 5.6000000000000006e-05, | |
| "loss": 0.0017, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 30.8, | |
| "grad_norm": 0.014939825981855392, | |
| "learning_rate": 5.333333333333333e-05, | |
| "loss": 0.002, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 31.0, | |
| "grad_norm": 0.0026936582289636135, | |
| "learning_rate": 5.0666666666666674e-05, | |
| "loss": 0.001, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 31.8, | |
| "grad_norm": 0.013127907179296017, | |
| "learning_rate": 4.8e-05, | |
| "loss": 0.002, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 32.0, | |
| "grad_norm": 0.016948040574789047, | |
| "learning_rate": 4.5333333333333335e-05, | |
| "loss": 0.002, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 32.8, | |
| "grad_norm": 0.014154300093650818, | |
| "learning_rate": 4.266666666666667e-05, | |
| "loss": 0.0019, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 33.0, | |
| "grad_norm": 0.00309836701489985, | |
| "learning_rate": 4e-05, | |
| "loss": 0.0014, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 33.8, | |
| "grad_norm": 0.013364593498408794, | |
| "learning_rate": 3.733333333333334e-05, | |
| "loss": 0.0021, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 34.0, | |
| "grad_norm": 0.0037534332368522882, | |
| "learning_rate": 3.466666666666667e-05, | |
| "loss": 0.0015, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 34.8, | |
| "grad_norm": 0.004760047886520624, | |
| "learning_rate": 3.2000000000000005e-05, | |
| "loss": 0.0011, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 35.0, | |
| "grad_norm": 0.047988664358854294, | |
| "learning_rate": 2.9333333333333336e-05, | |
| "loss": 0.0027, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 35.8, | |
| "grad_norm": 0.012401457875967026, | |
| "learning_rate": 2.6666666666666667e-05, | |
| "loss": 0.0017, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 36.0, | |
| "grad_norm": 0.003337729489430785, | |
| "learning_rate": 2.4e-05, | |
| "loss": 0.0014, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 36.8, | |
| "grad_norm": 0.011642703786492348, | |
| "learning_rate": 2.1333333333333335e-05, | |
| "loss": 0.0021, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 37.0, | |
| "grad_norm": 0.002380862832069397, | |
| "learning_rate": 1.866666666666667e-05, | |
| "loss": 0.0011, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 37.8, | |
| "grad_norm": 0.009748553857207298, | |
| "learning_rate": 1.6000000000000003e-05, | |
| "loss": 0.0018, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 38.0, | |
| "grad_norm": 0.0028984632808715105, | |
| "learning_rate": 1.3333333333333333e-05, | |
| "loss": 0.0017, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 38.8, | |
| "grad_norm": 0.010563669726252556, | |
| "learning_rate": 1.0666666666666667e-05, | |
| "loss": 0.0018, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 39.0, | |
| "grad_norm": 0.009710204787552357, | |
| "learning_rate": 8.000000000000001e-06, | |
| "loss": 0.0019, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 39.8, | |
| "grad_norm": 0.009000834077596664, | |
| "learning_rate": 5.333333333333334e-06, | |
| "loss": 0.0016, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 40.0, | |
| "grad_norm": 0.009032297879457474, | |
| "learning_rate": 2.666666666666667e-06, | |
| "loss": 0.0014, | |
| "step": 80 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 80, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 40, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 1.3515349547470848e+16, | |
| "train_batch_size": 2, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |