开源模型

2026-03-092026-03-10 TE 0 Comments

brew install python@3.12
python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip setuptools wheel

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip install transformers accelerate bitsandbytes sentencepiece safetensors

26年开源模型

排名	模型名称	组织/开发者	参数规模（总/活跃）	上下文长度	许可证	最强领域（2026基准）	为什么是顶级选择（本地部署友好度）	Hugging Face / Ollama 示例
1	GLM-5 (Reasoning / Thinking)	Zhipu AI (清华系)	~744B (MoE)	200K+	MIT-like	综合推理、数学、编码、代理	质量指数最高，常年霸榜；本地量化后极强	ollama run glm-5:reasoning
2	Kimi K2.5 (Reasoning / Dev)	Moonshot AI	~1T (MoE)	256K-1M	Apache 2.0	编码（SWE-bench 76%+）、深度思考、长文档	编码神器，本地MLX支持好；你的M3 Ultra跑得动	moonshotai/Kimi-K2.5-MLX
3	DeepSeek-V3.2 (-Speciale)	DeepSeek AI	685B (37B active MoE)	128K-256K	MIT	推理、数学、编码、性价比之王	社区最爱之一；量化后速度飞起	ollama run deepseek-v3.2:q4_k_m
4	MiniMax-M2.5 / M2.1	MiniMax	230B+ (MoE)	200K+	MIT	编码、代理、多语言、视觉编码	本地玩家最推荐的编码/代理模型之一	minimax/M2.5-instruct
5	Qwen3.5-397B-A17B / Qwen3-235B	Alibaba	397B (17B active) / 235B	128K-512K	Apache 2.0	通用、RAG、多语言、思考模式	平衡王者；MoE高效，512GB内存轻松跑	qwen/Qwen3.5-397B-A17B
6	Llama 4 Scout / Maverick	Meta	400B+ (17B active MoE)	10M tokens	Llama 4	超长上下文、文档/代码库分析	上下文长度碾压一切；开源生态最完善	meta-llama/Llama-4-Scout
7	MiMo-V2-Flash	(中国团队)	~309B (MoE)	128K+	MIT	代理工作流、工具调用、多步规划	2026代理任务最强开源之一	mimo/MiMo-V2-Flash
8	GLM-4.7 (Thinking)	Zhipu AI	355B	200K	MIT-like	数学（AIME 95%+）、编码	上一代王者，仍极强；很多玩家日常主力	glm-4.7-thinking
9	DeepSeek-R1	DeepSeek AI	671B (MoE)	128K+	MIT	链式思考、复杂推理	V3.2的前身/变体，依然顶级	deepseek-ai/DeepSeek-R1
10	Mistral Large 675B / Nemotron Ultra	Mistral AI / NVIDIA	675B / 253B	128K+	Apache 2.0	多语言、欧洲合规、通用	欧洲最强开源；社区支持好	mistralai/Mistral-Large-675B

想最强综合/推理/数学 → GLM-5 Reasoning 或 Kimi K2.5 Reasoning（量化Q4_K_M后跑，质量已超很多闭源）
编码/软件工程最强 → Kimi K2.5 或 MiniMax-M2.5（SWE-bench Verified 经常76%+，本地玩家公认神器）
超长上下文（64K+甚至百万级） → Llama 4 Scout（10M tokens开源天花板，你的512GB支持巨大上下文）
性价比/速度/日常通用 → DeepSeek-V3.2 或 Qwen3.5系列（MoE高效，tokens/s很高）
代理/工具调用/多步任务 → MiMo-V2-Flash 或 Kimi K2.5
如果你预算/精力有限，先试这三个（社区2026年3月最常被推荐）：
1. GLM-5 Reasoning
2. Kimi K2.5
3. DeepSeek-V3.2

这些模型基本都支持Ollama / MLX / llama.cpp部署，推荐从 Q4_K_M 或 Q5_K_M 量化开始，你的硬件轻松加载70B-200B有效参数的MoE模型，速度可达80-150+ t/s。

MLX（高级优化）：Apple ML Research 的框架，专为 Apple Silicon 设计。支持分布式运行（如多个 Mac），适合超大模型。

安装：pip install mlx-lm（需 Python 3.10+）。
运行：mlx_lm.generate –model model_path –prompt “Your prompt” –max-tokens 1000。用 Hugging Face 下载模型后转换。

量化模型：用 4-bit 或 8-bit 量化（Q4_0/Q8_0）减少内存占用。512GB 可加载未量化 70B 模型（约 140GB），或量化后跑 400B+。Ollama/MLX 内置支持：如

ollama run qwen3:30b-q4_0。 上下文管理：设置 –ctx 参数扩展上下文（如 Ollama 的 ollama run –ctx 65536）。你的内存支持 64K+ 轻松，留 40% 内存给 KV cache（上下文存储）。 并行/加速：MLX 用 –trust-remote-code 启用 GPU 加速。测试速度：M3 Ultra 在 Q4_0 下可达 1471 tokens/s（prompt 处理）和 92 tokens/s（生成）。 监控与优化：用 Activity Monitor 监视内存/CPU/GPU。避免全内存加载——目标 60% 占用。集成 Open WebUI（Docker 运行）加 UI

模型	参数	上下文长度	最佳用例	为什么适合 M3 Ultra	许可证	下载/运行示例
Llama 4 Scout	109B (17B active, MoE)	10M tokens (最大开源)	长文档分析、RAG、代码库审阅	量化后 fit 512GB；MoE 高效，利用 GPU 跑多步推理	Meta License	Ollama: `ollama run llama4-scout:109b-q4_0`
Qwen3-30B-A3B-Thinking	30.5B (3.3B active, MoE)	256K (可扩展到1M)	复杂推理、数学/编码、代理任务	高效 MoE，512GB 支持全上下文；多语言强	Apache 2.0	MLX: 下载 Hugging Face Qwen/Qwen3-30B-A3B-Thinking, `mlx_lm.generate --model .`
DeepSeek-V3.2	671B (37B active, MoE)	128K	通用推理、代理、长上下文规划	最佳整体性能；量化到 Q4 fit 内存，速度快	MIT	Ollama: `ollama run deepseek-v3.2:671b-q4_0`
Kimi-K2-Thinking	1T (MoE)	256K (可到1M)	深度思考、长文档、基准媲美 GPT-5	MLX 上跑 1T 模型；你的配置完美	Apache 2.0	MLX: Hugging Face moonshotai/Kimi-K2-Thinking-MLX, 用分布式如果需
Llama 3.3 70B	70B	128K	通用聊天、代码生成、合成数据	平衡性能/大小；512GB 轻松跑未量化	Llama 3.3	Ollama: `ollama run llama3.3:70b`
MiniMax-M1-80k	80B	80K (原生到1M)	上下文工程、长对话	高效长上下文；MoE 优化 Apple Silicon	MIT	MLX: 下载 MiniMax/M1-80k
Mistral Large 2	123B	128K	多语言、欧洲部署、RAG	80+ 语言支持；量化后高效	Apache 2.0	Ollama: `ollama run mistral-large2:123b-q4_0`
Nemotron-3	253B	1M	长上下文代理、多步规划	上海 AI Lab 出品；扩展强	Apache 2.0	MLX: 下载 ShanghaiAI/Nemotron-3

模型	参数量	本地内存需求（估算 FP16/4-bit）	上下文长度	优势场景	推荐量化方案
LLaMA 3	7B / 13B / 70B	FP16: 14/26/140 GB；4-bit: 7/13/70 GB	64K token	通用文本生成、聊天	4-bit / 8-bit
MPT-30B / 40B LongContext	30B / 40B	FP16: 60/80 GB；4-bit: 30/40 GB	65K token	长文档问答、RAG	4-bit / 8-bit
DeepSeek	13B / 30B / 70B	FP16: 26/60/140 GB；4-bit: 13/30/70 GB	64K+ token	文档检索、知识库问答、批量生成	4-bit
Qwen	14B / 34B / 70B	FP16: 28/68/140 GB；4-bit: 14/34/70 GB	64K–128K token	多模态生成、复杂文档处理、聊天	4-bit / 8-bit
WizardCoder	13B / 70B	FP16: 26/140 GB；4-bit: 13/70 GB	64K token	代码生成与理解	4-bit
Falcon 40B	40B	FP16: 80 GB；4-bit: 40 GB	65K token	高吞吐量文本生成	4-bit / 8-bit

主力文本生成 / 聊天：

LLaMA 3-70B 4-bit → 经典稳妥，生态成熟
Qwen-70B 4-bit → 多模态或复杂生成需求

超长文档处理 / 知识库问答：

DeepSeek-70B 4-bit → 原生 RAG 优化，64K+ token
MPT-30B LongContext → 稳定可靠，65K token

代码生成 / 开发辅助：

WizardCoder-70B 4-bit → 低延迟高精度

维度	Q4 (典型 Q4_K_M)	Q8 (典型 Q8_0)	谁赢？（M3 Ultra 场景）
内存占用	≈ 0.5 byte/参数（70B 模型 ≈ 35-45GB）	≈ 1 byte/参数（70B 模型 ≈ 70-80GB）	Q4 大胜（留更多空间给 KV cache 长上下文）
推理速度	更快（3-4× FP16 速度，M3 Ultra 上常 80-150 t/s）	较慢（2-2.5× FP16，M3 Ultra 上常 40-80 t/s）	Q4 明显更快（内存带宽利用更好）
质量/准确性	极小损失（perplexity 增加 ≈0.05-0.1，日常任务几乎无感知）现代模型（如 Qwen3、Llama 4、DeepSeek-V3）在 Q4 上已非常接近原版	几乎无损失（perplexity 增加 <0.001）	Q8 胜，但差距小到很多人测不出
长上下文支持	更容易跑 64K-256K+（KV cache 占用更少）	KV cache 占用翻倍，512GB 也更容易爆	Q4 大胜（你的硬件优势在这里体现）
加载/启动时间	更快（文件小）	更慢（文件大）	Q4 胜
典型推荐场景	大模型（70B+）、长上下文、日常/生产使用、多开模型	极致精度需求（如专业数学/代码审查）、小模型（<30B）	大多数人选 Q4

为什么社区和基准强烈偏向 Q4_K_M？

质量损失已极小：2025-2026 年的现代大模型（尤其是 MoE 架构如 Qwen3、DeepSeek、Llama 4 Scout）在 Q4_K_M 上的退化非常轻微。很多用户盲测（包括编码、长文档总结、推理）都分不出 Q4 和 Q8 的区别，甚至有些任务 Q5_K_M 以上才开始有可感知提升。
内存是最大瓶颈：加载 70B+ 模型后，KV cache（上下文存储）才是吃内存大户。
- 64K 上下文在 Q4 下 KV cache 可能只占 20-40GB。
- Q8 会翻倍，容易把剩余内存吃光，导致无法开大上下文或多任务。
- 跑 200B+ 或 1T MoE 模型时，Q4 甚至是唯一能 fit 的选项。
Apple Silicon 特性放大 Q4 优势：统一内存 + 高带宽（M3 Ultra ≈800GB/s）让低比特权重加载/计算效率更高。Q4 模型在 MLX/Ollama 上能充分利用 GPU 核心，tokens/s 显著高于 Q8。
“更大模型 + 更低量化” 胜过 “小模型 + 高量化”：社区共识是：宁可用 Q4 跑 405B/671B MoE，也不愿用 Q8 跑 70B。更大参数带来的智能提升远超量化带来的那点损失。

默认首选：Q4_K_M（或 Ollama/MLX 中的 Q4 变体）次选：如果觉得某个模型在你的任务上弱，试 Q5_K_M（质量更好，内存只多 20-30%） 极少用：Q8（除非上面说的特殊需求）测试方法：同一个 prompt 跑 Q4_K_M vs Q5_K_M vs Q8_0，对比输出质量 + tokens/s + 内存占用（Activity Monitor）。

add openwebui

docker run -d -p 3000:8080 –add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main

https://docs.openclaw.ai/zh-CN/tools/chrome-extension

https://mac.getutm.app

1、IPSW文件使用mist下载，mist安装方法如下，安装完成后下载截图中的系统。

brew install –cask mist

https://github.com/KhaosT/MacVM

https://developer.apple.com/cn/xcode

二、核心维度汇总对比表

软件名称	适配芯片	核心优势场景	价格	适合人群
Parallels Desktop 26	M/Intel全适配	Windows办公、轻度多媒体处理	498元/年	办公党、Windows刚需用户、颜值控
VMware Fusion 13	M/Intel全适配	Linux开发、多虚拟机调试	509元/终身，免费版可用	开发者、Linux用户、预算有限者
UTM 5.0.1	M芯片优化，Intel兼容	轻量Linux办公、基础调试	免费开源	M芯片用户、学生党、轻度需求者
MacVM	仅Apple Silicon	macOS多版本测试	免费开源	开发者、macOS测试需求者
VirtualBox	M/Intel全适配	跨平台虚拟机管理、小众Linux适配	免费开源	多设备用户、小众Linux需求者

clawskill

https://clawhub.ai/skills?sort=downloads

#	技能名称	下载量	核心功能
1	self-improving-agent	137k	全平台星数最高(1.6k★)。捕获运行时报错进行自我批判、修正，实现执行闭环。
2	Find Skills	136k	让 AI 自己去技能商店寻找并安装缺失能力，实现”自主招兵买马”。
3	Proactive Agent	73.9k	从被动应答转为主动预判，支持定时 Crons 和持续运行。
4	Skill Vetter	43.8k	Agent 的”安检官”：安装新技能前自动扫描红旗和可疑代码。
5	Self-Improving Agent (Proactive)	39.1k	自我反思+自我批评+自我学习+自组织记忆的高级引擎。

2. 💼 办公协作与效率工具 (共24款)

AI 从”聊天框”走进了每个打工人的真实办公流——邮件、日历、笔记、项目看板全覆盖。

#	技能名称	下载量	核心功能
1	Gog	96k	Google 全家桶一站式接管：Gmail/Calendar/Drive/Sheets/Docs。
2	Notion	46.9k	通过官方 API 自动创建页面、操作数据库、管理知识库。
3	Obsidian	41.7k	直连本地 Markdown 笔记库，实现知识管理的全自动化。
4	Himalaya	24.8k	纯终端邮件管理客户端，支持多账户和 MIME 消息编排。
5	Slack	23.7k	全盘接管 Slack 群组的消息Read/React/Pin操作。

3. 🏢 企业级SaaS集成 (共21款)

面向企业运营的 CRM/电商/财务/HR 垂直系统。大量采用统一 OAuth 管理的标准化集成模式。

#	技能名称	下载量	核心功能
1	API Gateway	37.2k	一针接通后端百余款 SaaS 系统的标准化 OAuth 路由网关。
2	Stripe	17.9k	支付/订阅/发票的全自动化管理。
3	Shopify	16.8k	电商店铺商品与订单管理。
4	Xero	16.7k	企业会计账务、发票与财务报表自动化。
5	Salesforce	16.5k	CRM 记录的 SOQL 查询与批量操作。

4. 🔍 信息检索与网页搜索 (共20款)

纯粹从互联网获取知识和回答问题。不同于浏览器自动化，这里只关心”拿到信息”。

#	技能名称	下载量	核心功能
1	Tavily Web Search	142k	总榜第一。专为大模型优化的去噪高密度搜索引擎。
2	Weather	72.7k	免 API Key 的天气数据即时获取。
3	Brave Search	33.3k	隐私无痕、无广告干扰的轻量级检索。
4	Baidu Web Search	28.8k	针对中文语境的百度AI搜索引擎接入。
5	Multi Search Engine	28.7k	并行调度 17 款搜索引擎（8中文+9国际）的终极聚合。

5. 🎬 多模态与文档处理 (共19款)

给纯文本大模型外挂”眼鼻耳口”——PDF/图片/音频/视频/文档格式的输入输出全覆盖。

#	技能名称	下载量	核心功能
1	Summarize	107k	总榜第四。万物皆可压缩——网页、PDF、图片、播客一键出摘要。
2	Nano Pdf	46.2k	用自然语言指令编辑 PDF 的本地工具链。
3	Nano Banana Pro	40.1k	接入 Gemini 3 Pro 的高清生图/改图节点。
4	Openai Whisper	37.3k	零配置的本地离线语音转文字。
5	OpenClaw YT Transcript	30.8k	自动提取 YouTube 视频隐式字幕转为万字文本。

6. 💻 开发者工具与代码管理 (共10款)

程序员核心工作流：代码托管、容器管理、MCP协议以及工作流编排。

#	技能名称	下载量	核心功能
1	Github	85.8k	深度集成 `gh` CLI，打通 issue/PR/Actions 等全链路。
2	Mcporter	31.8k	MCP 服务器的统一配置、鉴权与调用命令台。
3	Automation Workflows	29.9k	设计 Zapier/Make/n8n 级别的条件逻辑自动化流。
4	Docker Essentials	17.3k	容器管理、镜像操作、调试排障的核心指令集。
5	n8n workflow automation	15.5k	生成带幂等与错误重试机制的 n8n 标准工作流 JSON。

7. �️ 本地系统与智能硬件控制 (共9款)

打破软件沙盒——让 AI 操控你的物理设备和本地主机。

#	技能名称	下载量	核心功能
1	Sonoscli	51.9k	Sonos 音箱的发现/播放/音量/分组控制。
2	Desktop Control	21.8k	真·物理级 RPA：接管鼠标移动、键盘输入和实时截屏。
3	Peekaboo	15.4k	macOS UI 元素的捕获与自动化。
4	Tmux	14.6k	通过发送按键和抓取输出来远程控制终端会话。
5	Spotify Player	14.2k	终端里控制 Spotify 播放列表和搜索。

8. 📱 社交媒体与内容运营 (共8款)

让数字员工代你在社交平台上发帖、回复、管理社区。

#	技能名称	下载量	核心功能
1	YouTube	21.5k	YouTube Data API——管理视频/播放列表/评论。
2	WhatsApp Business	17.8k	企业 WhatsApp 消息模板管理与自动发送。
3	Discord	17.5k	全面接管 Discord 社区：消息/投票/权限/审核。
4	x-twitter	15k	在 Twitter/X 上发推/点赞/转推/管理时间线。
5	moltbook-interact	14.7k	专为 AI 智能体打造的社交网络互动。

9. ✍️ 文本处理与内容创作 (共7款)

文本润色、设计方法论、营销战略——偏”知识型”而非”工具型”的技能。

#	技能名称	下载量	核心功能
1	Humanizer	41.4k	基于维基百科”AI写作特征”指南的专业去机痕润色引擎。
2	Humanize AI text	27.8k	另一款重写 ChatGPT/Claude 输出绕过检测的工具。
3	SuperDesign	16.6k	构建现代 UI 时的专家级前端设计指南。
4	Marketing Mode	15.4k	融合 23 种营销策略、心理学、SEO 与转化优化的方法论库。
5	Wed 1.0.1	13.7k	“What Would Elon Do?”——一键生成极致商业执行计划。

10. 🤖 浏览器交互与网页自动化 (共6款)

不同于单纯的信息检索，这些技能直接控制一个真实浏览器——能点击、能填表、能截图。

#	技能名称	下载量	核心功能
1	Agent Browser	91.1k	无头浏览器之王。Agent 自行规划点击路径实现仿人操作。
2	Browser Use	21.5k	端到端的网页测试、表单填写、截图与数据抽取。
3	Playwright MCP	17.8k	结合 MCP 协议对 DOM 元素进行精准自动化操控。
4	Browser Automation	17.5k	用纯自然语言描述网页操作的脚本转译组件。
5	Playwright Scraper	14.2k	带反爬虫保护的 Playwright 网页抓取专用方案。

11. 📈 金融与投资分析 (共5款)

在高门槛的金融垂直领域自动化数据获取与量化分析。

#	技能名称	下载量	核心功能
1	Stock Analysis	25.1k	基于 Yahoo Finance 的全维度股票评分与趋势预警系统。
2	LNBits Wallet	19.5k	闪电网络钱包的余额查询、支付与发票管理。
3	Stock Market Pro	17.3k	带 RSI/MACD/布林带等专业技术指标的高清图表生成。
4	Yahoo Finance	13.4k	免费获取股价、财报、期权、分红数据的轻量级接口。
5	Stock Watcher	11.6k	个人自选股组合的自动监控与绩效摘要。

三、洞察：能力边界与未来去向

🎯 目前它【能】做什么？

1.端到端闭环执行：总榜第二的 self-improving-agent 证明 AI 已具备”执行→报错→反思→修复→再执行”的完整闭环能力。

2.横向生态的无缝粘合：从 Slack 聊天到 Github 提 PR 再到 Stripe 收款，它能把各种割裂的工作流一线串联。

3.突破 API 边界的桌面级 RPA：Desktop Control 让 AI 能直接操控桌面软件界面（模拟鼠标/键盘/截屏），即使目标应用没有 API 也能自动化；Home Assistant 则进一步延伸到了智能家居硬件控制。

🚧 目前它的【局限】是什么？

1.重度依赖基座模型的规划能力：复杂技能链路极度消耗上下文窗口，一旦底层模型的 Planning 能力下降，Agent 就可能陷入死循环。

2.多模态交互仍处早期：153 款头部技能中仍有超过 80% 是纯文字和指令化交互，离真正的”所见即所得”的具身智能还有距离。

3.企业级SaaS呈”量多质薄”特征：大量 Zoho/OAuth 集成下载量集中在 11k-17k 的窄带，说明企业场景的真实活跃度有待验证。

四、结语

OpenClaw 绝不只是极客的玩具。纵观 10K+ 下载的真实榜单，智能体自进化、办公协作打通、企业 SaaS 串联才是当前落地的三驾马车。它的本质，是一个每个普通打工人都能以极低成本组装调遣的——”拥有高维认知且持续进化的超级工作台”

Evo 2：基因组设计迈入大模型时代

2026 年 3 月 4 日，Nature 发表论文《Genome modelling and design across all domains of life with Evo 2》，这条消息之所以分量很重，是因为它意味着 AI for Science 在生命科学里的推进，又往前跨了一个层级。过去很多生物模型的热点还主要集中在蛋白质结构、局部 DNA 片段或者突变效应预测，而 Evo 2 直接把目标抬到了更完整、更长尺度的 基因组（genome） 层面。论文把它定义为面向“所有生命域（all domains of life）”的基因组语言模型，既能做 prediction，也具备一定的 design 能力。这个变化很关键，因为它意味着 AI 正在从“分析生命”逐渐过渡到“设计生命”。从论文披露的信息看，Evo 2 基于来自所有生命域、规模达到 数万亿核苷酸（trillions of nucleotides） 的数据训练，研究团队同时开放了模型参数、分布式训练代码、多 GPU 推理代码，以及 OpenGenome2 数据集。模型配置上，40B 参数、100 万上下文 版本整体表现最好，而 7B 参数、100 万上下文 版本则在更轻量化的使用场景下依然保持竞争力。能力层面，Evo 2 不只是识别序列模式，它还能用于预测 DNA、RNA、蛋白质 的突变效应，并被用于更长尺度的基因组设计任务。Nature News 的解读说得很直白：这标志着 AI 正在从蛋白质和局部序列设计，走向更完整的基因组级生成与优化。当然，论文也没有假装一切都很安全。作者用了相当多篇幅讨论 biosafety，例如在训练中排除了感染真核生物的病毒序列，并做了红队测试，以降低模型被直接用于病原体设计的风险。但他们也承认，任务特定的后训练可能绕过现有缓解措施。这个提醒非常关键，因为生物基础模型越强，开放科研和滥用风险之间的张力就会越难处理。行业视角看，Evo 2 的意义至少有三层：它把生物基础模型从局部任务推进到整段基因组层级；它把 AI 从“理解生命”推进到“尝试设计生命”；它也把生物安全治理正式推到了前台。这不是简单的一篇高水平论文，而是 AI 与生命科学关系开始升级的一个路标。

所属领域：AI for Science、生物计算、基因组建模、合成生物学、生物安全硬核指标：

•发表时间：Nature 于 2026 年 3 月 4 日 发表 Evo 2 论文与新闻解读

•模型规模：提供 40B 参数 / 1M context 主力版本，另有 7B 参数 / 1M context 轻量版本

•训练数据：基于覆盖所有生命域的 数万亿核苷酸序列 训练

•能力范围：支持 DNA / RNA / 蛋白质 突变效应预测与更长尺度的基因组设计

•产业意义：推动生物模型从局部序列分析迈向整段基因组设计，同时放大生物安全治理议题