DeepSeek-R1-Distill-Qwen-7B-GGUF / scores /deepseek-r1-distill-qwen-7b-q3_k_m.ppx

Regenerate Perplexity, KLD, ARC, HellaSwag, MMLU, Truthful QA and WinoGrande scores

0f51238 verified 8 months ago

1.07 kB

	====== Perplexity statistics ======
	Mean PPL(Q) : 25.241862 ± 0.238190
	Mean PPL(base) : 22.656280 ± 0.216110
	Cor(ln(PPL(Q)), ln(PPL(base))): 96.17%
	Mean ln(PPL(Q)/PPL(base)) : 0.108067 ± 0.002627
	Mean PPL(Q)/PPL(base) : 1.114122 ± 0.002927
	Mean PPL(Q)-PPL(base) : 2.585582 ± 0.066553

	====== KL divergence statistics ======
	Mean KLD: 0.310675 ± 0.000978
	Maximum KLD: 13.193255
	99.9% KLD: 3.235092
	99.0% KLD: 1.749219
	99.0% KLD: 1.749219
	Median KLD: 0.202102
	10.0% KLD: 0.005881
	5.0% KLD: 0.001288
	1.0% KLD: 0.000092
	Minimum KLD: -0.000012

	====== Token probability statistics ======
	Mean Δp: -2.612 ± 0.035 %
	Maximum Δp: 98.812%
	99.9% Δp: 61.048%
	99.0% Δp: 34.086%
	95.0% Δp: 14.732%
	90.0% Δp: 6.759%
	75.0% Δp: 0.325%
	Median Δp: -0.077%
	25.0% Δp: -3.968%
	10.0% Δp: -16.600%
	5.0% Δp: -27.404%
	1.0% Δp: -51.971%
	0.1% Δp: -79.416%
	Minimum Δp: -99.470%
	RMS Δp : 13.592 ± 0.056 %
	Same top p: 74.228 ± 0.113 %