运行GLM4.6模型的情况下，perfill速度下降巨大。 #15

daibuzizai · 2025-12-18T11:46:30Z

daibuzizai
Dec 18, 2025

经过试用，运行GLM4.6模型的情况下，perfill速度下降巨大。decode速度较ik_llama.cpp要快不少。另外不同的前端表现也不相同，cherrystudio运行正常，sillytavern输出是乱码。