开源模型

brew install python@3.12
python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip setuptools wheel

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip install transformers accelerate bitsandbytes sentencepiece safetensors

26年开源模型

排名模型名称组织/开发者参数规模(总/活跃)上下文长度许可证最强领域(2026基准)为什么是顶级选择(本地部署友好度)Hugging Face / Ollama 示例
1GLM-5 (Reasoning / Thinking)Zhipu AI (清华系)~744B (MoE)200K+MIT-like综合推理、数学、编码、代理质量指数最高,常年霸榜;本地量化后极强ollama run glm-5:reasoning
2Kimi K2.5 (Reasoning / Dev)Moonshot AI~1T (MoE)256K-1MApache 2.0编码(SWE-bench 76%+)、深度思考、长文档编码神器,本地MLX支持好;你的M3 Ultra跑得动moonshotai/Kimi-K2.5-MLX
3DeepSeek-V3.2 (-Speciale)DeepSeek AI685B (37B active MoE)128K-256KMIT推理、数学、编码、性价比之王社区最爱之一;量化后速度飞起ollama run deepseek-v3.2:q4_k_m
4MiniMax-M2.5 / M2.1MiniMax230B+ (MoE)200K+MIT编码、代理、多语言、视觉编码本地玩家最推荐的编码/代理模型之一minimax/M2.5-instruct
5Qwen3.5-397B-A17B / Qwen3-235BAlibaba397B (17B active) / 235B128K-512KApache 2.0通用、RAG、多语言、思考模式平衡王者;MoE高效,512GB内存轻松跑qwen/Qwen3.5-397B-A17B
6Llama 4 Scout / MaverickMeta400B+ (17B active MoE)10M tokensLlama 4超长上下文、文档/代码库分析上下文长度碾压一切;开源生态最完善meta-llama/Llama-4-Scout
7MiMo-V2-Flash(中国团队)~309B (MoE)128K+MIT代理工作流、工具调用、多步规划2026代理任务最强开源之一mimo/MiMo-V2-Flash
8GLM-4.7 (Thinking)Zhipu AI355B200KMIT-like数学(AIME 95%+)、编码上一代王者,仍极强;很多玩家日常主力glm-4.7-thinking
9DeepSeek-R1DeepSeek AI671B (MoE)128K+MIT链式思考、复杂推理V3.2的前身/变体,依然顶级deepseek-ai/DeepSeek-R1
10Mistral Large 675B / Nemotron UltraMistral AI / NVIDIA675B / 253B128K+Apache 2.0多语言、欧洲合规、通用欧洲最强开源;社区支持好mistralai/Mistral-Large-675B
  • 想最强综合/推理/数学 → GLM-5 Reasoning 或 Kimi K2.5 Reasoning(量化Q4_K_M后跑,质量已超很多闭源)
  • 编码/软件工程最强 → Kimi K2.5 或 MiniMax-M2.5(SWE-bench Verified 经常76%+,本地玩家公认神器)
  • 超长上下文(64K+甚至百万级) → Llama 4 Scout(10M tokens开源天花板,你的512GB支持巨大上下文)
  • 性价比/速度/日常通用 → DeepSeek-V3.2 或 Qwen3.5系列(MoE高效,tokens/s很高)
  • 代理/工具调用/多步任务 → MiMo-V2-Flash 或 Kimi K2.5
  • 如果你预算/精力有限,先试这三个(社区2026年3月最常被推荐):
    1. GLM-5 Reasoning
    2. Kimi K2.5
    3. DeepSeek-V3.2

这些模型基本都支持Ollama / MLX / llama.cpp部署,推荐从 Q4_K_MQ5_K_M 量化开始,你的硬件轻松加载70B-200B有效参数的MoE模型,速度可达80-150+ t/s。

MLX(高级优化):Apple ML Research 的框架,专为 Apple Silicon 设计。支持分布式运行(如多个 Mac),适合超大模型。

  • 安装:pip install mlx-lm(需 Python 3.10+)。
  • 运行:mlx_lm.generate –model model_path –prompt “Your prompt” –max-tokens 1000。用 Hugging Face 下载模型后转换。

量化模型:用 4-bit 或 8-bit 量化(Q4_0/Q8_0)减少内存占用。512GB 可加载未量化 70B 模型(约 140GB),或量化后跑 400B+。Ollama/MLX 内置支持:如

ollama run qwen3:30b-q4_0。 上下文管理:设置 –ctx 参数扩展上下文(如 Ollama 的 ollama run –ctx 65536)。你的内存支持 64K+ 轻松,留 40% 内存给 KV cache(上下文存储)。 并行/加速:MLX 用 –trust-remote-code 启用 GPU 加速。测试速度:M3 Ultra 在 Q4_0 下可达 1471 tokens/s(prompt 处理)和 92 tokens/s(生成)。 监控与优化:用 Activity Monitor 监视内存/CPU/GPU。避免全内存加载——目标 60% 占用。集成 Open WebUI(Docker 运行)加 UI

模型参数上下文长度最佳用例为什么适合 M3 Ultra许可证下载/运行示例
Llama 4 Scout109B (17B active, MoE)10M tokens (最大开源)长文档分析、RAG、代码库审阅量化后 fit 512GB;MoE 高效,利用 GPU 跑多步推理Meta LicenseOllama: ollama run llama4-scout:109b-q4_0
Qwen3-30B-A3B-Thinking30.5B (3.3B active, MoE)256K (可扩展到1M)复杂推理、数学/编码、代理任务高效 MoE,512GB 支持全上下文;多语言强Apache 2.0MLX: 下载 Hugging Face Qwen/Qwen3-30B-A3B-Thinking, mlx_lm.generate --model .
DeepSeek-V3.2671B (37B active, MoE)128K通用推理、代理、长上下文规划最佳整体性能;量化到 Q4 fit 内存,速度快MITOllama: ollama run deepseek-v3.2:671b-q4_0
Kimi-K2-Thinking1T (MoE)256K (可到1M)深度思考、长文档、基准媲美 GPT-5MLX 上跑 1T 模型;你的配置完美Apache 2.0MLX: Hugging Face moonshotai/Kimi-K2-Thinking-MLX, 用分布式如果需
Llama 3.3 70B70B128K通用聊天、代码生成、合成数据平衡性能/大小;512GB 轻松跑未量化Llama 3.3Ollama: ollama run llama3.3:70b
MiniMax-M1-80k80B80K (原生到1M)上下文工程、长对话高效长上下文;MoE 优化 Apple SiliconMITMLX: 下载 MiniMax/M1-80k
Mistral Large 2123B128K多语言、欧洲部署、RAG80+ 语言支持;量化后高效Apache 2.0Ollama: ollama run mistral-large2:123b-q4_0
Nemotron-3253B1M长上下文代理、多步规划上海 AI Lab 出品;扩展强Apache 2.0MLX: 下载 ShanghaiAI/Nemotron-3

模型参数量本地内存需求(估算 FP16/4-bit)上下文长度优势场景推荐量化方案
LLaMA 37B / 13B / 70BFP16: 14/26/140 GB;4-bit: 7/13/70 GB64K token通用文本生成、聊天4-bit / 8-bit
MPT-30B / 40B LongContext30B / 40BFP16: 60/80 GB;4-bit: 30/40 GB65K token长文档问答、RAG4-bit / 8-bit
DeepSeek13B / 30B / 70BFP16: 26/60/140 GB;4-bit: 13/30/70 GB64K+ token文档检索、知识库问答、批量生成4-bit
Qwen14B / 34B / 70BFP16: 28/68/140 GB;4-bit: 14/34/70 GB64K–128K token多模态生成、复杂文档处理、聊天4-bit / 8-bit
WizardCoder13B / 70BFP16: 26/140 GB;4-bit: 13/70 GB64K token代码生成与理解4-bit
Falcon 40B40BFP16: 80 GB;4-bit: 40 GB65K token高吞吐量文本生成4-bit / 8-bit

主力文本生成 / 聊天

  • LLaMA 3-70B 4-bit → 经典稳妥,生态成熟
  • Qwen-70B 4-bit → 多模态或复杂生成需求

超长文档处理 / 知识库问答

  • DeepSeek-70B 4-bit → 原生 RAG 优化,64K+ token
  • MPT-30B LongContext → 稳定可靠,65K token

代码生成 / 开发辅助

  • WizardCoder-70B 4-bit → 低延迟高精度

维度Q4 (典型 Q4_K_M)Q8 (典型 Q8_0)谁赢?(M3 Ultra 场景)
内存占用≈ 0.5 byte/参数(70B 模型 ≈ 35-45GB)≈ 1 byte/参数(70B 模型 ≈ 70-80GB)Q4 大胜(留更多空间给 KV cache 长上下文)
推理速度更快(3-4× FP16 速度,M3 Ultra 上常 80-150 t/s)较慢(2-2.5× FP16,M3 Ultra 上常 40-80 t/s)Q4 明显更快(内存带宽利用更好)
质量/准确性极小损失(perplexity 增加 ≈0.05-0.1,日常任务几乎无感知) 现代模型(如 Qwen3、Llama 4、DeepSeek-V3)在 Q4 上已非常接近原版几乎无损失(perplexity 增加 <0.001)Q8 胜,但差距小到很多人测不出
长上下文支持更容易跑 64K-256K+(KV cache 占用更少)KV cache 占用翻倍,512GB 也更容易爆Q4 大胜(你的硬件优势在这里体现)
加载/启动时间更快(文件小)更慢(文件大)Q4 胜
典型推荐场景大模型(70B+)、长上下文、日常/生产使用、多开模型极致精度需求(如专业数学/代码审查)、小模型(<30B)大多数人选 Q4

为什么社区和基准强烈偏向 Q4_K_M?

  • 质量损失已极小:2025-2026 年的现代大模型(尤其是 MoE 架构如 Qwen3、DeepSeek、Llama 4 Scout)在 Q4_K_M 上的退化非常轻微。很多用户盲测(包括编码、长文档总结、推理)都分不出 Q4 和 Q8 的区别,甚至有些任务 Q5_K_M 以上才开始有可感知提升。
  • 内存是最大瓶颈:加载 70B+ 模型后,KV cache(上下文存储)才是吃内存大户。
    • 64K 上下文在 Q4 下 KV cache 可能只占 20-40GB。
    • Q8 会翻倍,容易把剩余内存吃光,导致无法开大上下文或多任务。
    • 跑 200B+ 或 1T MoE 模型时,Q4 甚至是唯一能 fit 的选项。
  • Apple Silicon 特性放大 Q4 优势:统一内存 + 高带宽(M3 Ultra ≈800GB/s)让低比特权重加载/计算效率更高。Q4 模型在 MLX/Ollama 上能充分利用 GPU 核心,tokens/s 显著高于 Q8。
  • “更大模型 + 更低量化” 胜过 “小模型 + 高量化”:社区共识是:宁可用 Q4 跑 405B/671B MoE,也不愿用 Q8 跑 70B。更大参数带来的智能提升远超量化带来的那点损失。

默认首选:Q4_K_M(或 Ollama/MLX 中的 Q4 变体) 次选:如果觉得某个模型在你的任务上弱,试 Q5_K_M(质量更好,内存只多 20-30%) 极少用:Q8(除非上面说的特殊需求) 测试方法:同一个 prompt 跑 Q4_K_M vs Q5_K_M vs Q8_0,对比输出质量 + tokens/s + 内存占用(Activity Monitor)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注