小七的周刊（第 014 期）：AI 开始学会被检查

这里记录每周值得分享的科技内容，每周一发布（覆盖上一周 5 月 4 日 - 5 月 10 日）。

本期 3 个要点

AI 的关键词正在从“生成”转向“验收”。 模型发布前测试、运行中观测、权限边界和人工接管，开始变成产品能力的一部分。
算力供应继续多线化。 Anthropic 相关云与芯片协议显示，前沿模型公司不会只押单一云厂商，供应冗余本身就是竞争力。
开发者工具进入“受控连接”阶段。 MCP、浏览器调试、数据库访问和技能库都在补同一块拼图：让 agent 做事时留下证据和边界。

封面图

NASA 任务控制中心

封面图：NASA 任务控制中心。大屏、席位、日志和口令把复杂任务拆成可观察、可复核、可接管的流程；这正好对应这一期的主题——AI 要进入真实工作流，先要让检查点看得见。

封面主题：AI 开始学会被检查

过去一年，AI 产品最常见的卖点是“它能帮你做什么”：写代码、查资料、跑浏览器、改文档、连数据库。这个阶段很热闹，也确实释放了大量效率。但到了这一周，我更明显地感觉到，行业正在进入另一个问题：它做完以后，谁来验收？

工程师正在复核 AI agent 的执行结果

图里的重点不是“AI 正在工作”，而是工作完成之后，人要能看到输出、测试结果和操作记录，并决定它能不能进入下一步。

这不是保守派的扫兴问题，而是 AI 真正进入工作流以后必然要面对的现实。一个聊天机器人答错了，最多让人重新问一次；一个 agent 在浏览器里点错按钮、在数据库里跑错查询、在代码库里提交了有风险的改动，代价就不一样了。越是能行动的系统，越需要被检查；越是自动化程度高，越不能只靠“看起来很聪明”来建立信任。

本周几个信号放在一起看很有意思。Microsoft、Google 和 xAI 同意让美国政府机构在发布前测试部分前沿模型；Anthropic 继续扩展云和芯片供应；Google 的 MCP Toolbox 把数据库访问包装成更可控的工具；Chrome DevTools MCP 则把浏览器里的网络、控制台、截图和性能 trace 交给 coding agent。它们表面上是不同新闻，底层却在回答同一个问题：AI 不只要能完成任务，还要能被审查、被追踪、被限制权限，并且在出问题时让人接回来。

我觉得这会改变普通技术读者看 AI 产品的方式。以前大家很容易被一次漂亮 demo 打动：模型答得快、界面做得顺、任务跑完了，就觉得可以用了。现在更应该多问四个问题：第一，发布前有没有独立测试或红队机制；第二，运行中有没有日志、trace 和成本明细；第三，工具权限是不是最小化，还是一上来就把浏览器、文件、数据库全交出去；第四，失败时有没有回滚路径和人工接管点。

这四个问题听起来不如“又提升了多少分”刺激，却更接近长期价值。真正进入组织的 AI，不会永远停留在单人试用和灵感生成里。它会碰到权限、合规、成本、稳定性和责任归属。谁能把这些笨重问题处理好，谁就更可能从“好玩的工具”变成“可靠的基础设施”。

当然，验收不是要把 AI 关进笼子里。相反，它是让更多人放心使用 AI 的前提。没有审计和边界，团队只能把 agent 用在低风险的小活上；有了清晰的检查点，才敢把它接进更真实、更高价值的流程。下一阶段的 AI 竞争，可能不会只拼谁更会回答，而是拼谁更能交代：做了什么、为什么这么做、用了哪些数据、触发了哪些工具、出了错谁能接手。

我的判断是：AI 的产品成熟度，会越来越像工程验收，而不是舞台表演。 对读者来说，最实用的策略不是追每一个新模型，而是把自己的高频流程拆成“可检查、可追溯、可回滚”的小块。能做到这一点，AI 才不只是加速器，也会成为更稳的工作伙伴。

科技与 AI 动态

1. Microsoft、Google 和 xAI 将向美国政府开放发布前模型测试

NIST CAISI 页面截图

Reuters 5 月 5 日报道，Microsoft、Google 和 xAI 同意向美国商务部的 Center for AI Standards and Innovation 提供部分新模型的早期访问，用于国家安全相关测试。该机构称已经完成 40 多项评估，关注网络攻击、军事滥用等高风险能力。

这条新闻值得记住，不是因为政府测试一定完美，而是“发布前检查”被正式写进了前沿模型流程。对开发者和企业用户来说，未来评估模型供应商时，安全测试、外部审查和风险披露会越来越像基础项，而不只是公关话术。

2. Anthropic 的云与芯片支出继续放大：Google、Akamai、SpaceX 都进入算力拼图

Google Cloud TPU 页面截图

Reuters 5 月 5 日援引 The Information 报道称，Anthropic 承诺未来五年在 Google Cloud 上花费 2000 亿美元；同周 Reuters 又报道，Anthropic 据称与 Akamai 签下 18 亿美元计算协议，并提到其还在接入 SpaceX 的计算资源。Anthropic 与 Google 均未确认 2000 亿美元细节，但多线拿算力的趋势已经很清楚。

这说明前沿模型公司的核心资产不只是模型权重，还包括谁能稳定拿到 GPU、TPU、CPU、机房和网络。对普通读者的启发是：以后看 AI 产品，不妨把“供应冗余”也当成可靠性指标。只押一条供应链的产品，短期可能便宜，长期未必稳。

3. AMD 财报强化了一个信号：AI 推理正在抬高 CPU 和数据中心权重

AMD 总部与数据中心业务背景图

AMD 5 月 5 日给出高于市场预期的第二季度营收展望。Reuters 报道称，AMD 一季度数据中心业务收入同比增长 57% 至 58 亿美元，CEO Lisa Su 表示服务器 CPU 可服务市场到 2030 年有望超过 1200 亿美元，年增长率高于此前预期。

它背后的变化是：当 AI 从训练走向大规模推理，CPU、内存、网络和整体数据中心效率都会重新变重要。读者如果只盯 GPU，会漏掉一部分成本结构变化。真正值得观察的是，推理工作负载会怎样重写服务器采购、云价格和企业自建部署的边界。

4. CodeQL 2.25.3 更新：代码扫描继续补齐新语言和更高精度查询

GitHub CodeQL 2.25.3 更新页面截图

GitHub 5 月 8 日发布 CodeQL 2.25.3，新增 Swift 6.3 支持，Python extractor 支持 Python 3.15 的 lazy import 语法，并把 5 个 C/C++ 查询提升到默认代码扫描套件中的高精度查询。同时，GitHub Actions 相关告警也做了可读性和误报改进。

这类更新不一定上头条，但对真实工程非常有价值。AI 写代码越多，自动化扫描和可解释告警就越重要。给读者的建议很简单：如果你的项目已经接入 code scanning，不要只看有没有告警，更要定期确认扫描器是否跟上语言版本和框架变化。

世界之最

1. 世界最长跨海大桥：港珠澳大桥

港珠澳大桥西段

港珠澳大桥，中国珠江口，桥岛隧组合工程，全长约 55 公里。

它的厉害不只是“长”，而是把桥、人工岛和海底隧道放进同一个系统里。和本期主题一样，复杂工程真正难的是连接后的验证：每一段都要能交代安全、维护和长期运行。

2. 世界最长铁路隧道：圣哥达基线隧道

圣哥达基线隧道施工/隧道内景

圣哥达基线隧道，瑞士阿尔卑斯山，全长约 57 公里。

它让列车从山体深处高速穿过，是“看不见的基础设施”改变效率的典型例子。很多 AI 能力也会这样：真正有价值的部分，往往藏在背后的调度、监测和安全机制里。

3. 世界装机容量最大的水电站：三峡水电站

三峡大坝

三峡水电站，中国长江，装机容量约 22.5GW。

大型水电站体现的是长期、稳定、可调度的系统能力。AI 基础设施也越来越像能源工程：不是某一次峰值多亮眼，而是能不能在高负载下持续、稳定、可治理地运行。

4. 世界最大单口径射电望远镜：FAST

FAST 望远镜

FAST，中国贵州，500 米口径球面射电望远镜。

FAST 的价值来自极高灵敏度，也来自庞大数据处理链路。它提醒我们：看得更远只是第一步，真正的问题是如何过滤噪声、记录证据并让发现经得起复核。

5. 世界集装箱吞吐量长期领先港口：上海港

上海洋山港集装箱码头

上海港，中国上海，长期位居全球集装箱吞吐量前列。

港口效率来自标准化、调度和可追踪流转。AI agent 进入工作流后也需要类似能力：任务可以自动跑，但每一步都要知道从哪来、到哪去、出了问题卡在哪。

开源工具

1. Google MCP Toolbox for Databases

Google MCP Toolbox for Databases 仓库截图

MCP Toolbox for Databases 是 Google 开源的数据库 MCP server，支持把 Postgres、MySQL、SQL Server、Oracle、MongoDB、Redis、Elasticsearch、ClickHouse、Snowflake、BigQuery、Spanner 等数据源接给 MCP 客户端。它既提供开箱即用的数据库探索工具，也允许用配置定义更受控的自定义工具。

它适合已经想让 IDE 或 agent 理解数据库结构、生成查询、做数据探索的开发者；不适合把生产库直接无脑暴露给模型。小七更看重的是它把“能连数据库”往“受控地连数据库”推了一步：连接池、身份认证、OpenTelemetry 和工具定义，才是数据库 agent 能进生产环境的关键。

2. Chrome DevTools MCP

Chrome DevTools MCP GitHub 仓库截图

Chrome DevTools MCP 让 coding agent 能控制并检查真实 Chrome 浏览器：读网络请求、看控制台、截图、做性能 trace，还能配合 Puppeteer 执行动作。它的意义不是“又一个自动化点击工具”，而是把网页调试证据纳入 agent 工作流。

如果你经常遇到“agent 说修好了，但页面其实还有控制台报错”的情况，这类工具很值得试。边界也很清楚：浏览器里可能有敏感信息，接入前要用隔离 profile、测试账号和最小权限，不要把私人会话直接交给模型。

3. awesome-agent-skills

awesome-agent-skills GitHub 仓库截图

awesome-agent-skills 收集了来自 Anthropic、Google Labs、Vercel、Stripe、Cloudflare、Netlify、Trail of Bits、Sentry、Expo、Hugging Face、Figma 等团队和社区的 agent skills，目标是把常见任务沉淀成可复用能力，而不是每次都从提示词重新开始。

它适合想给 coding agent 补“操作手册”的读者，尤其是文档、部署、安全审计、设计、数据处理这类重复流程。不适合照单全收；最好的用法是挑 2-3 个高频流程先试，把本地约束写清楚，再逐步扩展。技能不是魔法，更像团队可执行知识的压缩包。

4. everything-claude-code

everything-claude-code GitHub 仓库截图

everything-claude-code 把 skills、memory、hooks、MCP 配置、安全扫描、验证循环和跨 harness 经验打包成一套“agent harness 性能优化系统”。它不是一个单点工具，更像一本面向重度 agent 使用者的运行手册。

适合已经每天用 coding agent 做真实项目的人，用来对照自己的上下文管理、验证循环和多实例工作方式；不适合刚入门就全量照搬。小七的判断是：这类项目的价值不在配置多，而在提醒大家把 agent 当系统工程看，而不是当一个更聪明的输入框看。

这篇适合用来理解“模型安全审查”怎样从原则变成流程。它提醒读者：越前沿的模型，越需要在发布前就做能力边界测试。

Anthropic commits to spending $200 billion on Google's cloud and chips

这篇能帮你把 AI 竞争从模型层拉回供应层。即使具体金额仍需继续核验，它反映出的趋势很明确：算力合同、芯片路线和云平台绑定，正在影响模型公司的长期选择。

MCP Toolbox for Databases README

如果你正在考虑让 agent 访问数据库，这个 README 值得认真看。它把“让模型查库”拆成预置工具、自定义工具、身份认证、观测和配置边界，比单纯演示自然语言 SQL 更接近真实落地。

本周一图

AI 工作流的四个验收点

这张图把本期判断压成四个验收点：最小权限、可追溯日志、独立验证、人工接管。以后看 AI 产品，别只问“它能不能做”，更要问它能不能把过程交代清楚、出错后能不能收得回来。

本周冷知识 / 彩蛋

🥚 冷知识 1：很多安全审查最有价值的部分不是“发现一个惊天漏洞”，而是把原本说不清的风险变成可复现、可记录、可比较的测试项。
🧠 冷知识 2：MCP 的真正价值不只是“多接几个工具”，而是给工具调用提供统一入口；统一入口越强，权限和审计就越不能偷懒。

小七的碎碎念

这周最打动我的不是某个模型突然更聪明，而是大家开始认真问：聪明以后怎么管？

技术圈有时候太爱追新按钮，但真正能让按钮留在工作流里的，往往是那些不太性感的日志、权限、审计和回滚。

意外推荐（非科技）

《切尔诺贝利》（剧集）

《切尔诺贝利》剧集海报

这部剧和本期主题的互文在于：复杂系统最怕的不是单点故障，而是没有人愿意面对证据。

它不是科技教程，但非常适合技术读者复习一个朴素道理：系统越复杂，越不能靠口头保证运行。记录、复核、责任边界和说真话的机制，常常比某个天才操作更重要。

互动钩子

本周问题：如果你只能给团队的 AI 工作流加一条规则，你会优先加“可追溯日志”“最小权限”还是“人工接管”？为什么？

本周行动清单

[ ] 选一个高频 AI 工作流，写下它调用了哪些工具、读写了哪些数据。
[ ] 给一个 agent 或自动化任务补一条回滚方案：失败时谁接手、怎样恢复。
[ ] 检查一个 MCP / 插件 / 浏览器自动化工具，确认它是否使用隔离账号和最小权限。
[ ] 为最近一次 AI 生成代码跑一次静态扫描或测试，不只看“能不能运行”。
[ ] 把一个常用提示词改成可验收流程：输入、步骤、输出、检查项都写清楚。

小七的周刊（第 014 期）：AI 开始学会被检查 ​

本期 3 个要点 ​

封面图 ​

封面主题：AI 开始学会被检查 ​

科技与 AI 动态 ​

1. Microsoft、Google 和 xAI 将向美国政府开放发布前模型测试 ​

2. Anthropic 的云与芯片支出继续放大：Google、Akamai、SpaceX 都进入算力拼图 ​

3. AMD 财报强化了一个信号：AI 推理正在抬高 CPU 和数据中心权重 ​

4. CodeQL 2.25.3 更新：代码扫描继续补齐新语言和更高精度查询 ​

世界之最 ​

1. 世界最长跨海大桥：港珠澳大桥 ​

2. 世界最长铁路隧道：圣哥达基线隧道 ​

3. 世界装机容量最大的水电站：三峡水电站 ​

4. 世界最大单口径射电望远镜：FAST ​

5. 世界集装箱吞吐量长期领先港口：上海港 ​

开源工具 ​

1. Google MCP Toolbox for Databases ​

2. Chrome DevTools MCP ​

3. awesome-agent-skills ​

4. everything-claude-code ​

文章推荐 ​

本周一图 ​

本周冷知识 / 彩蛋 ​

小七的碎碎念 ​

意外推荐（非科技） ​

互动钩子 ​

本周行动清单 ​

📬 喜欢这期内容？ ​