2026-05-28
🎬 YouTube
1. Finally a good benchmark (DeepSWE) — Matthew Berman
DeepSWE 看起来是一个面向软件工程/代码代理能力的新 benchmark,重点不只是“会不会写代码”,而是更贴近真实工程任务的表现。Matthew Berman 这期值得关注的是:行业正在从玩具题和短代码题,转向能区分 agent 实战能力的评测。
🔗 链接
2. Power agents with full context of your experiments and traces with W&B MCP server — Weights & Biases
W&B 这期围绕 MCP server,把实验、trace、模型运行记录变成 agent 可直接读取的上下文。核心价值是让代码/研究 agent 不只看仓库文件,还能理解实验历史、失败记录和观测数据,减少重复试错。
🔗 链接
3. He's Building One AI to Cure Disease, Aging, and the Brain — Weights & Biases
这期偏 AI for science / biotech 方向,主题是用统一 AI 系统处理疾病、衰老和大脑相关问题。它和今天 Latent Space 的 ESMFold2 内容呼应:生物模型正在从单点预测工具,走向覆盖发现、设计和验证的科学工作流。
🔗 链接
🎙️ 播客
1. ESMFold2: The Bitter Lesson is Coming for Proteins — Latent Space
BioHub 的 Alex Rives 介绍了 ESMFold2:一个开放的蛋白质科学引擎,面向蛋白互作、抗体等治疗相关场景。文章提到模型在蛋白互作上达到 SOTA,尤其是抗体,并发布了 68 亿蛋白 atlas 和 11 亿预测结构;重点信号是“足够大、足够多样的数据 + 通用 Transformer”正在挑战高度手工归纳偏置的生物模型路线。
🔗 链接
📝 博客
1. sqlite AGENTS.md — Simon Willison
SQLite 新增了 AGENTS.md,但目的不是鼓励 agent 给 SQLite 提 PR,而是明确告知外部代码 agent 如何与项目互动。SQLite 不接受 agentic code,但接受带可复现测试用例的 agentic bug report;同时他们把 AI 生成 bug report 分流到了新的 SQLite Bug Forum,说明成熟开源项目正在为 agent 时代重写贡献边界。
🔗 链接
2. I think Anthropic and OpenAI have found product-market fit — Simon Willison
Simon 的判断是 Anthropic 和 OpenAI 在 coding agents 上找到了产品市场匹配:高薪专业人士已经把它们当成日常生产力工具。关键证据是企业客户开始按 API/token 价格承担真实使用成本,而个人订阅仍像“折扣包”;他自己的 30 天估算里,Claude Code 和 Codex 若按 API 计费约 2180 美元,但订阅只花 200 美元。
🔗 链接
3. How AI coding agents actually use your technology — Microsoft for Developers
Microsoft 这篇从“agent harness 如何组装上下文”拆解 AI coding agent 使用 SDK、CLI、API、MCP 的真实路径。重点是:模型看到的不是完整世界,而是 harness 选进上下文窗口的系统提示、文件、工具描述、AGENTS.md 等材料;因此开发者体验已经扩展成 AX(agent experience),工具描述长度、文档结构和 MCP 暴露方式都会影响 agent 是否正确使用你的技术。
🔗 链接
4. Training our own AI models — PostHog
PostHog 宣布计划用产品内数据训练自有 AI 模型,目标包括大规模 session replay 分析、合成用户测试、预测用户行为、提出转化率优化建议。隐私/治理上,EU cloud 和有 BAA/MSA 等限制协议的客户默认 opt out;美国云其他用户默认 opt in,但会匿名化、不卖给第三方模型商,并允许随时退出,训练最早 6 月 29 日开始。
🔗 链接
🗞️ Techmeme 热点
1. Anthropic 与 OpenAI 凭 coding agents 找到产品市场匹配
Techmeme 收录 Simon Willison 的判断:coding agents 正快速成为高收入专业人士的日常工具。这个热点和企业 token 账单上涨、订阅定价变化直接相关,说明 agent 价值已经开始从“演示很酷”进入“组织愿意买单”的阶段。
🔗 链接
2. AI 需求推高整个光通信供应链价格
Nikkei Asia 报道,AI 数据中心需求正在造成光通信链路的短缺和涨价,范围从激光器、基板到光纤和连接器。这个信号说明 AI 基建瓶颈不只是 GPU,也会外溢到网络和光学供应链。
🔗 链接
3. ByteDance 据称自研 CPU 支撑 AI 基建
Reuters 消息称,ByteDance 正开发自有 CPU,以缓解芯片涨价和供应短缺对 AI 扩张的限制。大厂继续向上游硬件自研推进,背后是推理/训练规模化后的成本和供应链压力。
🔗 链接
4. AI 硬件需求缓解中国对人民币升值影响出口的担忧
Bloomberg 报道称,全球 AI 硬件需求强劲,使中国对人民币走强伤害出口的担忧有所下降;AI 硬件出口和芯片设备进口都在上升。AI 基建正在成为宏观贸易和汇率叙事里的关键变量。
🔗 链接
5. Meta 计划把工程和产品人员嵌入大企业客户,推动 AI 工具落地
The Information 消息称,Meta 新 Enterprise Solutions 单元计划把工程师和产品经理派驻到大型企业客户中,帮助部署其 AI 工具。这说明企业 AI 竞争不只是模型能力,还包括售前/交付/组织落地能力。
🔗 链接
📊 YouTube 3 条 | 播客 1 条 | 博客 4 条 | Techmeme 5 条 | 精选 13 条