文章详情

专注互联网科技,赋能企业数字化发展

更小更精准的量化,Qwen3.6-27b,EXllamaV3

作者:更小更精准的量化,Qwen3.6-27b,EXllamaV3

之前一直在尝试本地用 vllm 以及 llama.cpp (包括 ik_llama)运行量化后的 Qwen3.6-27b,用过 AWQ、GPTQ、Autoround、GGUF 等不同量化的模型。后来看到 exl3 的量化,这是一个更加精准的非整数量化,不过实在太小众。原先它的速度还是比较快的,后来更新到v3,更偏向精准,速度变得很慢了。不过看图1,同样尺寸下 exl3 的困惑度最低,我在 AWQ、Autoround 确实有偏差,Unsloth (今天5月12日还更新了支持 MTP 的qwen3.6的模型)的 UD 量化也不如它。图2则是GGUF里面的困惑度对比,不同开发者之间的差距很小,单纯看困惑度,似乎 Ubergarm 的 IQ4 和 IQ5 最优,所以最后还得靠实际体验测试来决定。 根据开发者的宣称,EXL3 将嵌入层保存在系统 RAM 中,并且不对其进行量化。这是有意为之,因为在推理过程中,嵌入本身并不进行任何计算,所以没有必要将 VRAM 浪费在一个庞大的查找表上,而每个词元只需要从中读取几 KB 的数据。对于 Qwen3.5-27B(以及 3.6),词汇表大小为 242k,因此,如果模型维度为 5k,数据类型为 BF16,则模型权重存储的数据量约为 242k * 5k * 2 字节,即 2.4 GB,而这些数据并不占用 VRAM。因此,对于 Q3_K 模型,相同的嵌入表只会占用大约 500 MB 的文件大小。无论如何,嵌入不占用任何显存,所以如果要进行公平的比较,应该从 EXL3 文件大小中减去大约 1.9 GB。 所以对于小显存的用户,似乎 EXL3 更精准?不过它们有个不好的地方:不支持部分卸载到内存!所以 MOE 类的模型严重受限了。此外,没有 DSA 支持,这意味着像 DeepSeek、Kimi、GLM 5 这样的前沿型号以及未来几年内基本上任何 SOTA 型号都无法运行。 现在我尚未进行测试,等这段时间测试下 UnstableLlama/Qwen3.6-27B-exl3-6.00bpw 这个版本的模型,看看那些经典的测试集能有什么表现。 最后,图3 是exl3 下不同权重时候的大小和 KL PPL值;图4 是开发者用 4090 测试结果 #量化 #大模型 #ai #qwen #人工智能 #本地 #单卡 #rtx3090 #openclaw #hermes

返回新闻列表