开源模型
brew install python@3.12
python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip setuptools wheel
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
pip install transformers accelerate bitsandbytes sentencepiece safetensors
26年开源模型
| 排名 | 模型名称 | 组织/开发者 | 参数规模(总/活跃) | 上下文长度 | 许可证 | 最强领域(2026基准) | 为什么是顶级选择(本地部署友好度) | Hugging Face / Ollama 示例 |
|---|---|---|---|---|---|---|---|---|
| 1 | GLM-5 (Reasoning / Thinking) | Zhipu AI (清华系) | ~744B (MoE) | 200K+ | MIT-like | 综合推理、数学、编码、代理 | 质量指数最高,常年霸榜;本地量化后极强 | ollama run glm-5:reasoning |
| 2 | Kimi K2.5 (Reasoning / Dev) | Moonshot AI | ~1T (MoE) | 256K-1M | Apache 2.0 | 编码(SWE-bench 76%+)、深度思考、长文档 | 编码神器,本地MLX支持好;你的M3 Ultra跑得动 | moonshotai/Kimi-K2.5-MLX |
| 3 | DeepSeek-V3.2 (-Speciale) | DeepSeek AI | 685B (37B active MoE) | 128K-256K | MIT | 推理、数学、编码、性价比之王 | 社区最爱之一;量化后速度飞起 | ollama run deepseek-v3.2:q4_k_m |
| 4 | MiniMax-M2.5 / M2.1 | MiniMax | 230B+ (MoE) | 200K+ | MIT | 编码、代理、多语言、视觉编码 | 本地玩家最推荐的编码/代理模型之一 | minimax/M2.5-instruct |
| 5 | Qwen3.5-397B-A17B / Qwen3-235B | Alibaba | 397B (17B active) / 235B | 128K-512K | Apache 2.0 | 通用、RAG、多语言、思考模式 | 平衡王者;MoE高效,512GB内存轻松跑 | qwen/Qwen3.5-397B-A17B |
| 6 | Llama 4 Scout / Maverick | Meta | 400B+ (17B active MoE) | 10M tokens | Llama 4 | 超长上下文、文档/代码库分析 | 上下文长度碾压一切;开源生态最完善 | meta-llama/Llama-4-Scout |
| 7 | MiMo-V2-Flash | (中国团队) | ~309B (MoE) | 128K+ | MIT | 代理工作流、工具调用、多步规划 | 2026代理任务最强开源之一 | mimo/MiMo-V2-Flash |
| 8 | GLM-4.7 (Thinking) | Zhipu AI | 355B | 200K | MIT-like | 数学(AIME 95%+)、编码 | 上一代王者,仍极强;很多玩家日常主力 | glm-4.7-thinking |
| 9 | DeepSeek-R1 | DeepSeek AI | 671B (MoE) | 128K+ | MIT | 链式思考、复杂推理 | V3.2的前身/变体,依然顶级 | deepseek-ai/DeepSeek-R1 |
| 10 | Mistral Large 675B / Nemotron Ultra | Mistral AI / NVIDIA | 675B / 253B | 128K+ | Apache 2.0 | 多语言、欧洲合规、通用 | 欧洲最强开源;社区支持好 | mistralai/Mistral-Large-675B |
- 想最强综合/推理/数学 → GLM-5 Reasoning 或 Kimi K2.5 Reasoning(量化Q4_K_M后跑,质量已超很多闭源)
- 编码/软件工程最强 → Kimi K2.5 或 MiniMax-M2.5(SWE-bench Verified 经常76%+,本地玩家公认神器)
- 超长上下文(64K+甚至百万级) → Llama 4 Scout(10M tokens开源天花板,你的512GB支持巨大上下文)
- 性价比/速度/日常通用 → DeepSeek-V3.2 或 Qwen3.5系列(MoE高效,tokens/s很高)
- 代理/工具调用/多步任务 → MiMo-V2-Flash 或 Kimi K2.5
- 如果你预算/精力有限,先试这三个(社区2026年3月最常被推荐):
- GLM-5 Reasoning
- Kimi K2.5
- DeepSeek-V3.2
这些模型基本都支持Ollama / MLX / llama.cpp部署,推荐从 Q4_K_M 或 Q5_K_M 量化开始,你的硬件轻松加载70B-200B有效参数的MoE模型,速度可达80-150+ t/s。
MLX(高级优化):Apple ML Research 的框架,专为 Apple Silicon 设计。支持分布式运行(如多个 Mac),适合超大模型。
- 安装:pip install mlx-lm(需 Python 3.10+)。
- 运行:mlx_lm.generate –model model_path –prompt “Your prompt” –max-tokens 1000。用 Hugging Face 下载模型后转换。
量化模型:用 4-bit 或 8-bit 量化(Q4_0/Q8_0)减少内存占用。512GB 可加载未量化 70B 模型(约 140GB),或量化后跑 400B+。Ollama/MLX 内置支持:如
ollama run qwen3:30b-q4_0。 上下文管理:设置 –ctx 参数扩展上下文(如 Ollama 的 ollama run –ctx 65536)。你的内存支持 64K+ 轻松,留 40% 内存给 KV cache(上下文存储)。 并行/加速:MLX 用 –trust-remote-code 启用 GPU 加速。测试速度:M3 Ultra 在 Q4_0 下可达 1471 tokens/s(prompt 处理)和 92 tokens/s(生成)。 监控与优化:用 Activity Monitor 监视内存/CPU/GPU。避免全内存加载——目标 60% 占用。集成 Open WebUI(Docker 运行)加 UI
| 模型 | 参数 | 上下文长度 | 最佳用例 | 为什么适合 M3 Ultra | 许可证 | 下载/运行示例 |
|---|---|---|---|---|---|---|
| Llama 4 Scout | 109B (17B active, MoE) | 10M tokens (最大开源) | 长文档分析、RAG、代码库审阅 | 量化后 fit 512GB;MoE 高效,利用 GPU 跑多步推理 | Meta License | Ollama: ollama run llama4-scout:109b-q4_0 |
| Qwen3-30B-A3B-Thinking | 30.5B (3.3B active, MoE) | 256K (可扩展到1M) | 复杂推理、数学/编码、代理任务 | 高效 MoE,512GB 支持全上下文;多语言强 | Apache 2.0 | MLX: 下载 Hugging Face Qwen/Qwen3-30B-A3B-Thinking, mlx_lm.generate --model . |
| DeepSeek-V3.2 | 671B (37B active, MoE) | 128K | 通用推理、代理、长上下文规划 | 最佳整体性能;量化到 Q4 fit 内存,速度快 | MIT | Ollama: ollama run deepseek-v3.2:671b-q4_0 |
| Kimi-K2-Thinking | 1T (MoE) | 256K (可到1M) | 深度思考、长文档、基准媲美 GPT-5 | MLX 上跑 1T 模型;你的配置完美 | Apache 2.0 | MLX: Hugging Face moonshotai/Kimi-K2-Thinking-MLX, 用分布式如果需 |
| Llama 3.3 70B | 70B | 128K | 通用聊天、代码生成、合成数据 | 平衡性能/大小;512GB 轻松跑未量化 | Llama 3.3 | Ollama: ollama run llama3.3:70b |
| MiniMax-M1-80k | 80B | 80K (原生到1M) | 上下文工程、长对话 | 高效长上下文;MoE 优化 Apple Silicon | MIT | MLX: 下载 MiniMax/M1-80k |
| Mistral Large 2 | 123B | 128K | 多语言、欧洲部署、RAG | 80+ 语言支持;量化后高效 | Apache 2.0 | Ollama: ollama run mistral-large2:123b-q4_0 |
| Nemotron-3 | 253B | 1M | 长上下文代理、多步规划 | 上海 AI Lab 出品;扩展强 | Apache 2.0 | MLX: 下载 ShanghaiAI/Nemotron-3 |
| 模型 | 参数量 | 本地内存需求(估算 FP16/4-bit) | 上下文长度 | 优势场景 | 推荐量化方案 |
|---|---|---|---|---|---|
| LLaMA 3 | 7B / 13B / 70B | FP16: 14/26/140 GB;4-bit: 7/13/70 GB | 64K token | 通用文本生成、聊天 | 4-bit / 8-bit |
| MPT-30B / 40B LongContext | 30B / 40B | FP16: 60/80 GB;4-bit: 30/40 GB | 65K token | 长文档问答、RAG | 4-bit / 8-bit |
| DeepSeek | 13B / 30B / 70B | FP16: 26/60/140 GB;4-bit: 13/30/70 GB | 64K+ token | 文档检索、知识库问答、批量生成 | 4-bit |
| Qwen | 14B / 34B / 70B | FP16: 28/68/140 GB;4-bit: 14/34/70 GB | 64K–128K token | 多模态生成、复杂文档处理、聊天 | 4-bit / 8-bit |
| WizardCoder | 13B / 70B | FP16: 26/140 GB;4-bit: 13/70 GB | 64K token | 代码生成与理解 | 4-bit |
| Falcon 40B | 40B | FP16: 80 GB;4-bit: 40 GB | 65K token | 高吞吐量文本生成 | 4-bit / 8-bit |
主力文本生成 / 聊天:
- LLaMA 3-70B 4-bit → 经典稳妥,生态成熟
- Qwen-70B 4-bit → 多模态或复杂生成需求
超长文档处理 / 知识库问答:
- DeepSeek-70B 4-bit → 原生 RAG 优化,64K+ token
- MPT-30B LongContext → 稳定可靠,65K token
代码生成 / 开发辅助:
- WizardCoder-70B 4-bit → 低延迟高精度
| 维度 | Q4 (典型 Q4_K_M) | Q8 (典型 Q8_0) | 谁赢?(M3 Ultra 场景) |
|---|---|---|---|
| 内存占用 | ≈ 0.5 byte/参数(70B 模型 ≈ 35-45GB) | ≈ 1 byte/参数(70B 模型 ≈ 70-80GB) | Q4 大胜(留更多空间给 KV cache 长上下文) |
| 推理速度 | 更快(3-4× FP16 速度,M3 Ultra 上常 80-150 t/s) | 较慢(2-2.5× FP16,M3 Ultra 上常 40-80 t/s) | Q4 明显更快(内存带宽利用更好) |
| 质量/准确性 | 极小损失(perplexity 增加 ≈0.05-0.1,日常任务几乎无感知) 现代模型(如 Qwen3、Llama 4、DeepSeek-V3)在 Q4 上已非常接近原版 | 几乎无损失(perplexity 增加 <0.001) | Q8 胜,但差距小到很多人测不出 |
| 长上下文支持 | 更容易跑 64K-256K+(KV cache 占用更少) | KV cache 占用翻倍,512GB 也更容易爆 | Q4 大胜(你的硬件优势在这里体现) |
| 加载/启动时间 | 更快(文件小) | 更慢(文件大) | Q4 胜 |
| 典型推荐场景 | 大模型(70B+)、长上下文、日常/生产使用、多开模型 | 极致精度需求(如专业数学/代码审查)、小模型(<30B) | 大多数人选 Q4 |
为什么社区和基准强烈偏向 Q4_K_M?
- 质量损失已极小:2025-2026 年的现代大模型(尤其是 MoE 架构如 Qwen3、DeepSeek、Llama 4 Scout)在 Q4_K_M 上的退化非常轻微。很多用户盲测(包括编码、长文档总结、推理)都分不出 Q4 和 Q8 的区别,甚至有些任务 Q5_K_M 以上才开始有可感知提升。
- 内存是最大瓶颈:加载 70B+ 模型后,KV cache(上下文存储)才是吃内存大户。
- 64K 上下文在 Q4 下 KV cache 可能只占 20-40GB。
- Q8 会翻倍,容易把剩余内存吃光,导致无法开大上下文或多任务。
- 跑 200B+ 或 1T MoE 模型时,Q4 甚至是唯一能 fit 的选项。
- Apple Silicon 特性放大 Q4 优势:统一内存 + 高带宽(M3 Ultra ≈800GB/s)让低比特权重加载/计算效率更高。Q4 模型在 MLX/Ollama 上能充分利用 GPU 核心,tokens/s 显著高于 Q8。
- “更大模型 + 更低量化” 胜过 “小模型 + 高量化”:社区共识是:宁可用 Q4 跑 405B/671B MoE,也不愿用 Q8 跑 70B。更大参数带来的智能提升远超量化带来的那点损失。
默认首选:Q4_K_M(或 Ollama/MLX 中的 Q4 变体) 次选:如果觉得某个模型在你的任务上弱,试 Q5_K_M(质量更好,内存只多 20-30%) 极少用:Q8(除非上面说的特殊需求) 测试方法:同一个 prompt 跑 Q4_K_M vs Q5_K_M vs Q8_0,对比输出质量 + tokens/s + 内存占用(Activity Monitor)。
add openwebui
docker run -d -p 3000:8080 –add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data –name open-webui –restart always ghcr.io/open-webui/open-webui:main
https://docs.openclaw.ai/zh-CN/tools/chrome-extension
1、IPSW文件使用mist下载,mist安装方法如下,安装完成后下载截图中的系统。
brew install –cask mist
https://github.com/KhaosT/MacVM
https://developer.apple.com/cn/xcode
二、核心维度汇总对比表
| 软件名称 | 适配芯片 | 核心优势场景 | 价格 | 适合人群 |
| Parallels Desktop 26 | M/Intel全适配 | Windows办公、轻度多媒体处理 | 498元/年 | 办公党、Windows刚需用户、颜值控 |
| VMware Fusion 13 | M/Intel全适配 | Linux开发、多虚拟机调试 | 509元/终身,免费版可用 | 开发者、Linux用户、预算有限者 |
| UTM 5.0.1 | M芯片优化,Intel兼容 | 轻量Linux办公、基础调试 | 免费开源 | M芯片用户、学生党、轻度需求者 |
| MacVM | 仅Apple Silicon | macOS多版本测试 | 免费开源 | 开发者、macOS测试需求者 |
| VirtualBox | M/Intel全适配 | 跨平台虚拟机管理、小众Linux适配 | 免费开源 | 多设备用户、小众Linux需求者 |
clawskill
https://clawhub.ai/skills?sort=downloads
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | self-improving-agent | 137k | 全平台星数最高(1.6k★)。捕获运行时报错进行自我批判、修正,实现执行闭环。 |
| 2 | Find Skills | 136k | 让 AI 自己去技能商店寻找并安装缺失能力,实现”自主招兵买马”。 |
| 3 | Proactive Agent | 73.9k | 从被动应答转为主动预判,支持定时 Crons 和持续运行。 |
| 4 | Skill Vetter | 43.8k | Agent 的”安检官”:安装新技能前自动扫描红旗和可疑代码。 |
| 5 | Self-Improving Agent (Proactive) | 39.1k | 自我反思+自我批评+自我学习+自组织记忆的高级引擎。 |
2. 💼 办公协作与效率工具 (共24款)
AI 从”聊天框”走进了每个打工人的真实办公流——邮件、日历、笔记、项目看板全覆盖。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Gog | 96k | Google 全家桶一站式接管:Gmail/Calendar/Drive/Sheets/Docs。 |
| 2 | Notion | 46.9k | 通过官方 API 自动创建页面、操作数据库、管理知识库。 |
| 3 | Obsidian | 41.7k | 直连本地 Markdown 笔记库,实现知识管理的全自动化。 |
| 4 | Himalaya | 24.8k | 纯终端邮件管理客户端,支持多账户和 MIME 消息编排。 |
| 5 | Slack | 23.7k | 全盘接管 Slack 群组的消息Read/React/Pin操作。 |
3. 🏢 企业级SaaS集成 (共21款)
面向企业运营的 CRM/电商/财务/HR 垂直系统。大量采用统一 OAuth 管理的标准化集成模式。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | API Gateway | 37.2k | 一针接通后端百余款 SaaS 系统的标准化 OAuth 路由网关。 |
| 2 | Stripe | 17.9k | 支付/订阅/发票的全自动化管理。 |
| 3 | Shopify | 16.8k | 电商店铺商品与订单管理。 |
| 4 | Xero | 16.7k | 企业会计账务、发票与财务报表自动化。 |
| 5 | Salesforce | 16.5k | CRM 记录的 SOQL 查询与批量操作。 |
4. 🔍 信息检索与网页搜索 (共20款)
纯粹从互联网获取知识和回答问题。不同于浏览器自动化,这里只关心”拿到信息”。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Tavily Web Search | 142k | 总榜第一。专为大模型优化的去噪高密度搜索引擎。 |
| 2 | Weather | 72.7k | 免 API Key 的天气数据即时获取。 |
| 3 | Brave Search | 33.3k | 隐私无痕、无广告干扰的轻量级检索。 |
| 4 | Baidu Web Search | 28.8k | 针对中文语境的百度AI搜索引擎接入。 |
| 5 | Multi Search Engine | 28.7k | 并行调度 17 款搜索引擎(8中文+9国际)的终极聚合。 |
5. 🎬 多模态与文档处理 (共19款)
给纯文本大模型外挂”眼鼻耳口”——PDF/图片/音频/视频/文档格式的输入输出全覆盖。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Summarize | 107k | 总榜第四。万物皆可压缩——网页、PDF、图片、播客一键出摘要。 |
| 2 | Nano Pdf | 46.2k | 用自然语言指令编辑 PDF 的本地工具链。 |
| 3 | Nano Banana Pro | 40.1k | 接入 Gemini 3 Pro 的高清生图/改图节点。 |
| 4 | Openai Whisper | 37.3k | 零配置的本地离线语音转文字。 |
| 5 | OpenClaw YT Transcript | 30.8k | 自动提取 YouTube 视频隐式字幕转为万字文本。 |
6. 💻 开发者工具与代码管理 (共10款)
程序员核心工作流:代码托管、容器管理、MCP协议以及工作流编排。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Github | 85.8k | 深度集成 gh CLI,打通 issue/PR/Actions 等全链路。 |
| 2 | Mcporter | 31.8k | MCP 服务器的统一配置、鉴权与调用命令台。 |
| 3 | Automation Workflows | 29.9k | 设计 Zapier/Make/n8n 级别的条件逻辑自动化流。 |
| 4 | Docker Essentials | 17.3k | 容器管理、镜像操作、调试排障的核心指令集。 |
| 5 | n8n workflow automation | 15.5k | 生成带幂等与错误重试机制的 n8n 标准工作流 JSON。 |
7. �️ 本地系统与智能硬件控制 (共9款)
打破软件沙盒——让 AI 操控你的物理设备和本地主机。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Sonoscli | 51.9k | Sonos 音箱的发现/播放/音量/分组控制。 |
| 2 | Desktop Control | 21.8k | 真·物理级 RPA:接管鼠标移动、键盘输入和实时截屏。 |
| 3 | Peekaboo | 15.4k | macOS UI 元素的捕获与自动化。 |
| 4 | Tmux | 14.6k | 通过发送按键和抓取输出来远程控制终端会话。 |
| 5 | Spotify Player | 14.2k | 终端里控制 Spotify 播放列表和搜索。 |
8. 📱 社交媒体与内容运营 (共8款)
让数字员工代你在社交平台上发帖、回复、管理社区。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | YouTube | 21.5k | YouTube Data API——管理视频/播放列表/评论。 |
| 2 | WhatsApp Business | 17.8k | 企业 WhatsApp 消息模板管理与自动发送。 |
| 3 | Discord | 17.5k | 全面接管 Discord 社区:消息/投票/权限/审核。 |
| 4 | x-twitter | 15k | 在 Twitter/X 上发推/点赞/转推/管理时间线。 |
| 5 | moltbook-interact | 14.7k | 专为 AI 智能体打造的社交网络互动。 |
9. ✍️ 文本处理与内容创作 (共7款)
文本润色、设计方法论、营销战略——偏”知识型”而非”工具型”的技能。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Humanizer | 41.4k | 基于维基百科”AI写作特征”指南的专业去机痕润色引擎。 |
| 2 | Humanize AI text | 27.8k | 另一款重写 ChatGPT/Claude 输出绕过检测的工具。 |
| 3 | SuperDesign | 16.6k | 构建现代 UI 时的专家级前端设计指南。 |
| 4 | Marketing Mode | 15.4k | 融合 23 种营销策略、心理学、SEO 与转化优化的方法论库。 |
| 5 | Wed 1.0.1 | 13.7k | “What Would Elon Do?”——一键生成极致商业执行计划。 |
10. 🤖 浏览器交互与网页自动化 (共6款)
不同于单纯的信息检索,这些技能直接控制一个真实浏览器——能点击、能填表、能截图。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Agent Browser | 91.1k | 无头浏览器之王。Agent 自行规划点击路径实现仿人操作。 |
| 2 | Browser Use | 21.5k | 端到端的网页测试、表单填写、截图与数据抽取。 |
| 3 | Playwright MCP | 17.8k | 结合 MCP 协议对 DOM 元素进行精准自动化操控。 |
| 4 | Browser Automation | 17.5k | 用纯自然语言描述网页操作的脚本转译组件。 |
| 5 | Playwright Scraper | 14.2k | 带反爬虫保护的 Playwright 网页抓取专用方案。 |
11. 📈 金融与投资分析 (共5款)
在高门槛的金融垂直领域自动化数据获取与量化分析。
| # | 技能名称 | 下载量 | 核心功能 |
|---|---|---|---|
| 1 | Stock Analysis | 25.1k | 基于 Yahoo Finance 的全维度股票评分与趋势预警系统。 |
| 2 | LNBits Wallet | 19.5k | 闪电网络钱包的余额查询、支付与发票管理。 |
| 3 | Stock Market Pro | 17.3k | 带 RSI/MACD/布林带等专业技术指标的高清图表生成。 |
| 4 | Yahoo Finance | 13.4k | 免费获取股价、财报、期权、分红数据的轻量级接口。 |
| 5 | Stock Watcher | 11.6k | 个人自选股组合的自动监控与绩效摘要。 |
三、洞察:能力边界与未来去向
🎯 目前它【能】做什么?
1.端到端闭环执行:总榜第二的 self-improving-agent 证明 AI 已具备”执行→报错→反思→修复→再执行”的完整闭环能力。
2.横向生态的无缝粘合:从 Slack 聊天到 Github 提 PR 再到 Stripe 收款,它能把各种割裂的工作流一线串联。
3.突破 API 边界的桌面级 RPA:Desktop Control 让 AI 能直接操控桌面软件界面(模拟鼠标/键盘/截屏),即使目标应用没有 API 也能自动化;Home Assistant 则进一步延伸到了智能家居硬件控制。
🚧 目前它的【局限】是什么?
1.重度依赖基座模型的规划能力:复杂技能链路极度消耗上下文窗口,一旦底层模型的 Planning 能力下降,Agent 就可能陷入死循环。
2.多模态交互仍处早期:153 款头部技能中仍有超过 80% 是纯文字和指令化交互,离真正的”所见即所得”的具身智能还有距离。
3.企业级SaaS呈”量多质薄”特征:大量 Zoho/OAuth 集成下载量集中在 11k-17k 的窄带,说明企业场景的真实活跃度有待验证。
四、结语
OpenClaw 绝不只是极客的玩具。纵观 10K+ 下载的真实榜单,智能体自进化、办公协作打通、企业 SaaS 串联才是当前落地的三驾马车。它的本质,是一个每个普通打工人都能以极低成本组装调遣的——”拥有高维认知且持续进化的超级工作台”
Evo 2:基因组设计迈入大模型时代
2026 年 3 月 4 日,Nature 发表论文《Genome modelling and design across all domains of life with Evo 2》,这条消息之所以分量很重,是因为它意味着 AI for Science 在生命科学里的推进,又往前跨了一个层级。过去很多生物模型的热点还主要集中在蛋白质结构、局部 DNA 片段或者突变效应预测,而 Evo 2 直接把目标抬到了更完整、更长尺度的 基因组(genome) 层面。论文把它定义为面向“所有生命域(all domains of life)”的基因组语言模型,既能做 prediction,也具备一定的 design 能力。这个变化很关键,因为它意味着 AI 正在从“分析生命”逐渐过渡到“设计生命”。从论文披露的信息看,Evo 2 基于来自所有生命域、规模达到 数万亿核苷酸(trillions of nucleotides) 的数据训练,研究团队同时开放了模型参数、分布式训练代码、多 GPU 推理代码,以及 OpenGenome2 数据集。模型配置上,40B 参数、100 万上下文 版本整体表现最好,而 7B 参数、100 万上下文 版本则在更轻量化的使用场景下依然保持竞争力。能力层面,Evo 2 不只是识别序列模式,它还能用于预测 DNA、RNA、蛋白质 的突变效应,并被用于更长尺度的基因组设计任务。Nature News 的解读说得很直白:这标志着 AI 正在从蛋白质和局部序列设计,走向更完整的基因组级生成与优化。当然,论文也没有假装一切都很安全。作者用了相当多篇幅讨论 biosafety,例如在训练中排除了感染真核生物的病毒序列,并做了红队测试,以降低模型被直接用于病原体设计的风险。但他们也承认,任务特定的后训练可能绕过现有缓解措施。这个提醒非常关键,因为生物基础模型越强,开放科研和滥用风险之间的张力就会越难处理。行业视角看,Evo 2 的意义至少有三层:它把生物基础模型从局部任务推进到整段基因组层级;它把 AI 从“理解生命”推进到“尝试设计生命”;它也把生物安全治理正式推到了前台。这不是简单的一篇高水平论文,而是 AI 与生命科学关系开始升级的一个路标。
所属领域:AI for Science、生物计算、基因组建模、合成生物学、生物安全硬核指标:
•发表时间:Nature 于 2026 年 3 月 4 日 发表 Evo 2 论文与新闻解读
•模型规模:提供 40B 参数 / 1M context 主力版本,另有 7B 参数 / 1M context 轻量版本
•训练数据:基于覆盖所有生命域的 数万亿核苷酸序列 训练
•能力范围:支持 DNA / RNA / 蛋白质 突变效应预测与更长尺度的基因组设计
•产业意义:推动生物模型从局部序列分析迈向整段基因组设计,同时放大生物安全治理议题