更小更精准的量化，Qwen3.6-27b，EXllamaV3

作者：更小更精准的量化，Qwen3.6-27b，EXllamaV3

之前一直在尝试本地用 vllm 以及 llama.cpp （包括 ik_llama）运行量化后的 Qwen3.6-27b，用过 AWQ、GPTQ、Autoround、GGUF 等不同量化的模型。后来看到 exl3 的量化，这是一个更加精准的非整数量化，不过实在太小众。原先它的速度还是比较快的，后来更新到v3，更偏向精准，速度变得很慢了。不过看图1，同样尺寸下 exl3 的困惑度最低，我在 AWQ、Autoround 确实有偏差，Unsloth （今天5月12日还更新了支持 MTP 的qwen3.6的模型）的 UD 量化也不如它。图2则是GGUF里面的困惑度对比，不同开发者之间的差距很小，单纯看困惑度，似乎 Ubergarm 的 IQ4 和 IQ5 最优，所以最后还得靠实际体验测试来决定。根据开发者的宣称，EXL3 将嵌入层保存在系统 RAM 中，并且不对其进行量化。这是有意为之，因为在推理过程中，嵌入本身并不进行任何计算，所以没有必要将 VRAM 浪费在一个庞大的查找表上，而每个词元只需要从中读取几 KB 的数据。对于 Qwen3.5-27B（以及 3.6），词汇表大小为 242k，因此，如果模型维度为 5k，数据类型为 BF16，则模型权重存储的数据量约为 242k * 5k * 2 字节，即 2.4 GB，而这些数据并不占用 VRAM。因此，对于 Q3_K 模型，相同的嵌入表只会占用大约 500 MB 的文件大小。无论如何，嵌入不占用任何显存，所以如果要进行公平的比较，应该从 EXL3 文件大小中减去大约 1.9 GB。所以对于小显存的用户，似乎 EXL3 更精准？不过它们有个不好的地方：不支持部分卸载到内存！所以 MOE 类的模型严重受限了。此外，没有 DSA 支持，这意味着像 DeepSeek、Kimi、GLM 5 这样的前沿型号以及未来几年内基本上任何 SOTA 型号都无法运行。现在我尚未进行测试，等这段时间测试下 UnstableLlama/Qwen3.6-27B-exl3-6.00bpw 这个版本的模型，看看那些经典的测试集能有什么表现。最后，图3 是exl3 下不同权重时候的大小和 KL PPL值；图4 是开发者用 4090 测试结果 #量化 #大模型 #ai #qwen #人工智能 #本地 #单卡 #rtx3090 #openclaw #hermes

文章详情

更小更精准的量化，Qwen3.6-27b，EXllamaV3

推荐阅读