Skip to content

大家好,我是Ai学习的老章

Qwen3-235B-A22B-Instruct-2507-GGUF

前文:Qwen3 发了一个「微不足道」的小更新,碾压Kimi K2、DeepSeek V3

但是模型太太太大了

https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

刚说压力给到 【教程】大模型量化界_翘楚_:unsloth

这不,unsloth 各种量化版本全都来了

https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF

UD-Q2_K_XL 仅需88GB显存

官方FP16的 500GB 显存,官方 FP8 版 240GB

Unsloth Q2 压到了88GB,不愧是大模型量化翘楚

如果稍富一点的哥们可以选大点的,比如经典的Q4_K_M 仅需142 GB

bit模型名大小
2-bitQ2_K85.7 GB
Q2_K_L85.8 GB
Q2_K_XL88.8 GB
3-bitQ3_K_S101 GB
Q3_K_M112 GB
Q3_K_XL104 GB
4-bitIQ4_XS125 GB
Q4_K_S134 GB
Q4_0133 GB
Q4_1147 GB
Q4_K_M142 GB
Q4_K_XL134 GB
5-bitQ5_K_S162 GB
Q5_K_M167 GB
6-bitQ6_K193 GB
Q6_K_XL202 GB
8-bitQ8_0250 GB
Q8_K_XL274 GB
16-bitBF16470 GB

⚙️最佳实践

为了达到最佳性能,建议采用以下设置:

  1. 采样参数
    • 建议使用 Temperature=0.7TopP=0.8TopK=20 和 MinP=0
    • 对于支持的框架,可以在 0 到 2 之间调整 presence_penalty 参数以减少无尽重复。然而,使用较高的值可能会偶尔导致语言混合,并略微降低模型性能。
  2. 足够的输出长度:建议使用 16,384 个令牌的输出长度,对于指令模型是足够的。
  3. 标准化输出格式:建议在基准测试时使用提示来标准化模型输出。
    • 数学问题:在提示中包含“请逐步推理,并将最终答案放在 \boxed{} 中。”
    • 选择题:在提示中添加以下 JSON 结构以标准化响应:“请在 answer 字段中仅显示选项字母,例如,"answer": "C"。”

CPU 运行

使用 Llama.cpp 进行优化推理和多种选项。

  1. 请从 GitHub 这里 获取最新版的 llama.cpp。你也可以参考以下编译说明。如果你没有 GPU 或只想使用 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF
    bash
    apt-get update
    apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
    git clone https://github.com/ggml-org/llama.cpp
    cmake llama.cpp -B llama.cpp/build \
        -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
    cp llama.cpp/build/bin/llama-* llama.cpp
  2. 通过 ( pip install huggingface_hub hf_transfer 安装后) 下载模型。您可以选择 UD-Q2_K_XL,或其他量化版本。
    bash
    # !pip install huggingface_hub hf_transfer
    import os
    os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
    from huggingface_hub import snapshot_download
    snapshot_download(
        repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
        local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
        allow_patterns = ["*UD-Q2_K_XL*"],
    )
  3. 运行模型并尝试
  4. 编辑 --threads -1 以设置 CPU 线程数,--ctx-size 262114 以设置上下文长度,--n-gpu-layers 99 以在多少层上启用 GPU 卸载。如果您的 GPU 内存不足,请尝试调整这些参数。如果没有 GPU 仅使用 CPU 进行推理,请移除这些参数。

使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU!这实际上允许您将所有非 MoE 层放在一个 GPU 上,从而提高生成速度。您可以根据 GPU 容量自定义正则表达式以适应更多层。

bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20

看到一个测评: Qwen3 在 SimpleQA 中表现优异,因为它训练得像一辆坦克:庞大、精确且充满事实。它需要大量的内存才能充分发挥性能,但运行起来非常稳定。我认为它确实能减少幻觉并提高回忆能力,尤其是在随机内容方面。如果你追求准确性,这绝对值得期待。

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT 、大模型系列研究报告(50 个 PDF)108页PDF小册子:搭建机器学习开发环境及Python基础  116页PDF小册子:机器学习中的概率论、统计学、线性代数  史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

Generated by Gemini CLI