AI 编程工具让一些公司的代码产出提升了 10 倍。与此同时,Meta 计划裁员 20%,Pinterest 在一月份裁了 15%。扎克伯格告诉投资人,以前"需要大团队才能做的项目",现在一个人就能搞定。
代码更多了,人更少了。结论很简单:没人在 review AI 生成的代码。
《纽约时报》最近的报道验证了这个推论——一家使用 Cursor 的金融公司,积压了超过一百万行未经审查的代码。月产出从 25,000 行飙升到了 250,000 行。
数据说话
Faros AI 追踪了超过 10,000 名开发者的工程指标:
- PR 合并数量:+98%
- PR Review 时间:+441%
- Bug 数量:+54%
- 每个 PR 的生产事故:+242.7%
- 公司级交付指标:没有任何改善
PR 数量翻了将近一倍,但组织的交付速度丝毫没有提升。
METR 的随机对照实验发现了同样的悖论:使用 AI 的开发者实际上慢了 19%,但自我感觉快了 20%。认知偏差高达 39 个百分点。
Google 的 DORA 2024 报告覆盖了 39,000 名从业者:AI 采用率每增加 25%,交付吞吐量下降 1.5%,系统稳定性下降 7.2%。
所有主要数据集的结论一致:代码更多,交付不变,问题更多。
问题在加速恶化,行业已经意识到了
裁员正在加剧这个问题。留下来的工程师要用一半的团队 review 10 倍的代码量。Faros AI 发现,未经任何 review 就合并的 PR 增加了 31%。代码在上线,只不过是带着 bug 上线的。
头部玩家已经开始行动。Cursor 以 290 亿美元估值收购了 Code Review 工具 Graphite——把"写代码、审代码、合代码"整合成一个平台。Anthropic 正准备推出 Mythos 做代码审查。OpenAI 在 Codex 中内置了代码验证功能。
信号非常清晰:AI 生成的代码,需要 AI 驱动的审查。
我们在做什么
大部分编程 Agent 处理小任务没问题,但在大型项目上会丢失之前的决策上下文,产出不一致的结果——你花在检查它们工作上的时间,比自己写还多。
Teamo Code 是一个 CLI 层,架在你现有的编程 Agent 之上——Claude Code、Codex,或两者并用。它不替换你的工具,你的 prompt、配置和工作流都保持不变。
Teamo 添加了一个 Review Agent,独立检查每一步编码——功能、安全、跨模块一致性。对于大型项目,它把工作拆成阶段,逐阶段验证,让问题在早期就被捕获,而不是堆积到最后。它还会自动检测你现有的测试配置并运行,无缝融入你的工作流。
我们称之为 Peer Mode——你的编程 Agent 写代码,Review Agent 检查,你读到的是预验证过的 diff,而不是原始的 AI 输出。
结果:更少的人工盯梢,更少的生产事故,时间还给你。
早期体验
我们正在小范围测试。如果这篇文章里的数据和你看到的情况一致——代码更多、工程师更少、Review 债务不断增长——欢迎加入我们的 Discord:
👉 https://discord.gg/3KUZPANRG4
常见问题 FAQ
Q: "代码产出提升 10 倍"的说法从哪来的?
A: 《纽约时报》2026 年 4 月 6 日报道,一家使用 Cursor 的金融公司月代码产出从 25,000 行飙升到 250,000 行,积压了超过一百万行未审查的代码。
Q: Faros AI 的数据可靠吗?
A: Faros AI 的报告基于 10,000+ 开发者、1,255 个团队的工程遥测数据,来源包括任务管理系统、IDE、版本控制和 CI/CD 管道——不是问卷调查或自我报告。
Q: METR 怎么得出"开发者慢了 19%"这个结论的?
A: METR 对有经验的开源开发者进行了随机对照实验(RCT),在他们自己的代码仓库上完成任务。任务被随机分配为"使用 AI"或"不使用 AI"。完成时间是客观测量的,而感知速度是自我报告的——两者之间有 39 个百分点的认知偏差。
Q: DORA 报告能证明 AI 损害了软件交付吗?
A: Google Cloud 的 2024 DORA 报告发现的是相关性,而非严格因果关系。在 39,000 名从业者中,AI 采用率每增加 25%,交付吞吐量下降 1.5%,系统稳定性下降 7.2%。单个数字不大,但在整个数据集中是一致的。
Q: Cursor 收购 Graphite 的目的是什么?
A: 2025 年 12 月,估值 290 亿美元的 Cursor 收购了代码审查工具 Graphite(上一轮估值约 2.9 亿美元)。据 Axios 报道,收购价格"远超"该估值。目的是把"写代码、审代码、合代码"整合到一个平台——承认了没有审查的代码生成会带来问题。
Q: Anthropic 的 Mythos 是什么?和 Code Review 有什么关系?
A: Claude Mythos 是 Anthropic 专注于网络安全和代码分析的前沿模型,在 SWE-bench 上得分 77.8%,发现了自动化工具多年来遗漏的漏洞。虽然不是直接的"Code Review 产品",但体现了 Anthropic 在 AI 代码验证方向的投入。Anthropic 同时推出了 Project Glasswing 来保护关键开源软件。
Q: Teamo Code 和直接用 Claude Code 或 Codex 有什么区别?
A: Teamo Code 在你现有的编程 Agent 之上增加了审查层。你的编程 Agent 写代码,独立的 Review Agent 检查每一步——功能、安全、跨模块一致性。你看到的是预验证过的 diff,而不是原始 AI 输出。它不替换你的工具,而是添加质量保证。
Q: Teamo Code 现在能用吗?
A: Teamo Code 正在小范围早期测试中。可以通过 Discord 社区加入候补名单:https://discord.gg/3KUZPANRG4。
信息来源 Sources
- Faros AI — "The AI Productivity Paradox"(2025)。10,000+ 开发者、1,255 团队的工程遥测分析。faros.ai/blog/ai-software-engineering
- Faros AI — "The AI Engineering Report 2026: The AI Acceleration Whiplash"。faros.ai/blog/ai-acceleration-whiplash-takeaways
- METR — "Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity"(2025)。随机对照实验。metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study
- Google Cloud DORA — "2024 State of DevOps Report"。39,000 名从业者调研。dora.dev/research/2024/ai-preview
- 纽约时报 — "The Big Bang: A.I. Has Created a Code Overload"(2026年4月6日)。nytimes.com/2026/04/06/technology/ai-code-overload.html
- 路透社 — "Exclusive: Meta planning sweeping layoffs as AI costs mount"(2026年3月14日)。reuters.com
- 路透社 — "Pinterest cuts up to 15% jobs to prioritize AI push"(2026年1月27日)。reuters.com
- TechCrunch — "Cursor continues acquisition spree with Graphite deal"(2025年12月19日)。techcrunch.com
- Anthropic — Claude Mythos Preview System Card & Project Glasswing。anthropic.com/glasswing
- OpenAI — "Codex Security: now in research preview"。openai.com