AI 信息源 · 2026-05-28 · 张腾甘的每日简报

🎬 YouTube

1. Finally a good benchmark (DeepSWE) — Matthew Berman

DeepSWE 看起来是一个面向软件工程/代码代理能力的新 benchmark，重点不只是“会不会写代码”，而是更贴近真实工程任务的表现。Matthew Berman 这期值得关注的是：行业正在从玩具题和短代码题，转向能区分 agent 实战能力的评测。
🔗 链接

2. Power agents with full context of your experiments and traces with W&B MCP server — Weights & Biases

W&B 这期围绕 MCP server，把实验、trace、模型运行记录变成 agent 可直接读取的上下文。核心价值是让代码/研究 agent 不只看仓库文件，还能理解实验历史、失败记录和观测数据，减少重复试错。
🔗 链接

3. He's Building One AI to Cure Disease, Aging, and the Brain — Weights & Biases

这期偏 AI for science / biotech 方向，主题是用统一 AI 系统处理疾病、衰老和大脑相关问题。它和今天 Latent Space 的 ESMFold2 内容呼应：生物模型正在从单点预测工具，走向覆盖发现、设计和验证的科学工作流。
🔗 链接

🎙️ 播客

1. ESMFold2: The Bitter Lesson is Coming for Proteins — Latent Space

BioHub 的 Alex Rives 介绍了 ESMFold2：一个开放的蛋白质科学引擎，面向蛋白互作、抗体等治疗相关场景。文章提到模型在蛋白互作上达到 SOTA，尤其是抗体，并发布了 68 亿蛋白 atlas 和 11 亿预测结构；重点信号是“足够大、足够多样的数据 + 通用 Transformer”正在挑战高度手工归纳偏置的生物模型路线。
🔗 链接

📝 博客

1. sqlite AGENTS.md — Simon Willison

SQLite 新增了 AGENTS.md，但目的不是鼓励 agent 给 SQLite 提 PR，而是明确告知外部代码 agent 如何与项目互动。SQLite 不接受 agentic code，但接受带可复现测试用例的 agentic bug report；同时他们把 AI 生成 bug report 分流到了新的 SQLite Bug Forum，说明成熟开源项目正在为 agent 时代重写贡献边界。
🔗 链接

2. I think Anthropic and OpenAI have found product-market fit — Simon Willison

Simon 的判断是 Anthropic 和 OpenAI 在 coding agents 上找到了产品市场匹配：高薪专业人士已经把它们当成日常生产力工具。关键证据是企业客户开始按 API/token 价格承担真实使用成本，而个人订阅仍像“折扣包”；他自己的 30 天估算里，Claude Code 和 Codex 若按 API 计费约 2180 美元，但订阅只花 200 美元。
🔗 链接

3. How AI coding agents actually use your technology — Microsoft for Developers

Microsoft 这篇从“agent harness 如何组装上下文”拆解 AI coding agent 使用 SDK、CLI、API、MCP 的真实路径。重点是：模型看到的不是完整世界，而是 harness 选进上下文窗口的系统提示、文件、工具描述、AGENTS.md 等材料；因此开发者体验已经扩展成 AX（agent experience），工具描述长度、文档结构和 MCP 暴露方式都会影响 agent 是否正确使用你的技术。
🔗 链接

4. Training our own AI models — PostHog

PostHog 宣布计划用产品内数据训练自有 AI 模型，目标包括大规模 session replay 分析、合成用户测试、预测用户行为、提出转化率优化建议。隐私/治理上，EU cloud 和有 BAA/MSA 等限制协议的客户默认 opt out；美国云其他用户默认 opt in，但会匿名化、不卖给第三方模型商，并允许随时退出，训练最早 6 月 29 日开始。
🔗 链接

🗞️ Techmeme 热点

1. Anthropic 与 OpenAI 凭 coding agents 找到产品市场匹配

Techmeme 收录 Simon Willison 的判断：coding agents 正快速成为高收入专业人士的日常工具。这个热点和企业 token 账单上涨、订阅定价变化直接相关，说明 agent 价值已经开始从“演示很酷”进入“组织愿意买单”的阶段。
🔗 链接

2. AI 需求推高整个光通信供应链价格

Nikkei Asia 报道，AI 数据中心需求正在造成光通信链路的短缺和涨价，范围从激光器、基板到光纤和连接器。这个信号说明 AI 基建瓶颈不只是 GPU，也会外溢到网络和光学供应链。
🔗 链接

3. ByteDance 据称自研 CPU 支撑 AI 基建

Reuters 消息称，ByteDance 正开发自有 CPU，以缓解芯片涨价和供应短缺对 AI 扩张的限制。大厂继续向上游硬件自研推进，背后是推理/训练规模化后的成本和供应链压力。
🔗 链接

4. AI 硬件需求缓解中国对人民币升值影响出口的担忧

Bloomberg 报道称，全球 AI 硬件需求强劲，使中国对人民币走强伤害出口的担忧有所下降；AI 硬件出口和芯片设备进口都在上升。AI 基建正在成为宏观贸易和汇率叙事里的关键变量。
🔗 链接

5. Meta 计划把工程和产品人员嵌入大企业客户，推动 AI 工具落地

The Information 消息称，Meta 新 Enterprise Solutions 单元计划把工程师和产品经理派驻到大型企业客户中，帮助部署其 AI 工具。这说明企业 AI 竞争不只是模型能力，还包括售前/交付/组织落地能力。
🔗 链接

📊 YouTube 3 条 | 播客 1 条 | 博客 4 条 | Techmeme 5 条 | 精选 13 条