AI 信息源 · 2026-04-08 · 张腾甘的每日简报

🎬 YouTube

Michael Nielsen – Why aliens will have a different tech stack than us｜Dwarkesh Patel
这期对谈把视角拉到“外星技术栈”这个思想实验上，核心不是猎奇，而是逼着我们区分哪些技术选择是物理规律决定的，哪些只是人类历史路径依赖的结果。Michael Nielsen 一直关注科学发现与智能系统的结构，这个题目大概率会落在计算范式、表示方式，以及不同智能体如何组织知识上。
🔗 链接

🎙️ 播客

Extreme Harness Engineering for Token Billionaires｜Latent Space
这期节目聚焦 OpenAI Frontier / Symphony 的 Ryan Lopopolo，标题里直接给出几个夸张但关键的指标：100 万行 harness 代码、每天 10 亿 token、几乎 0% 人工编码和 0% 人工 review。重点显然是大模型研发正在从“调模型”转向“造流水线”，把评测、回归、自动修复和实验编排做成超大规模的软件工程体系。
🔗 链接

📝 博客

GLM-5.1: Towards Long-Horizon Tasks｜simonwillison.net
Simon 关注的是 Z.ai 发布的 GLM-5.1，这是一篇典型的“新模型能力速读”。从标题看，重点在 long-horizon tasks，也就是模型能否在更长链路任务里保持状态、规划和执行一致性，这比单点 benchmark 更接近真实 agent 场景。
🔗 链接
Anthropic's Project Glasswing - restricting Claude Mythos to security researchers - sounds necessary to me｜simonwillison.net
这篇文章讨论 Anthropic 对 Claude Mythos / Glasswing 采取更严格发布限制的必要性。Simon 的态度在标题里已经很明确，他认为把高风险安全能力只开放给安全研究者是合理的，这反映出前沿模型开始面对“能力太强，不能直接全量公开”的现实。
🔗 链接
SQLite WAL Mode Across Docker Containers Sharing a Volume｜simonwillison.net
这篇偏工程实践，讨论多个 Docker 容器共享卷时 SQLite 的 WAL 模式会遇到什么问题。虽然不是纯 AI 内容，但对大量本地 agent、抓取器和轻量数据管线很实用，因为很多 AI 工具都拿 SQLite 当默认状态库。
🔗 链接
Writing an LLM from scratch, part 32i -- Interventions: what is in the noise?｜gilesthomas.com
Giles Thomas 继续他的“从零写 LLM”系列，这一篇已经进入很细的内部机制分析。标题里的 interventions 和 noise 指向一个关键问题：当你干预模型内部表征时，真正起作用的信号是什么，哪些又只是看起来相关的噪声。
🔗 链接
Sam Altman, in a Video Released by OpenAI, Apparently Thinks AGI Is Going to Hit Society Like a Once-a-Century Pandemic｜daringfireball.net
Daring Fireball 转述的是 OpenAI 发布视频里 Sam Altman 对 AGI 社会冲击的表述，甚至被类比成“百年一遇的大流行病”。这个标题本身就很有火药味，重点不是技术细节，而是 OpenAI 高层如何向公众 framing AGI 的速度与冲击。
🔗 链接

🗞️ Techmeme 热点

Anthropic 挖来微软高管 Eric Boyd 负责基础设施
Boyd 在微软待了 16 年，长期负责 AI 平台相关工作。Anthropic 把这类基础设施高管拉进来，说明它已经把训练、推理和平台化能力视为核心竞争壁垒，而不只是模型研究问题。
🔗 链接
Z.ai 发布 GLM-5.1，称其在 SWE-bench Pro 上超过 GPT-5.4 和 Claude Opus 4.6
这是今天模型圈最直接的性能宣言之一，参数规模达到 754B，而且采用 MIT 许可证可用。即便具体评测还要再看复现，这也说明中国团队正在更积极地用开放许可和 agent benchmark 抢技术话语权。
🔗 链接
Google Photos 在 Android 全球推出 AI Enhance 按钮
这个功能主打自动光照和对比度优化，同时还加了视频播放速度控制。它不是前沿大模型新闻，但很能说明 AI 正在继续以“轻交互、默认开启”的方式渗进消费级产品。
🔗 链接
Anthropic 称 Mythos Preview 在 SWE-bench Verified 达到 93.9%
对比 Opus 4.6 的 80.8%，这个提升非常激进；在 SWE-bench Pro 上也给出 77.8% 对 53.4% 的成绩。结合它没有公开发布而是限制给安全研究者，Anthropic 显然在强化一个叙事：模型已经强到必须先管风险再谈普及。
🔗 链接
OpenAI 总裁 Greg Brockman 谈研究方向、Codex 上限和 Sora 收尾
这场 Q&A 涵盖 OpenAI 现在最关键的产品和研究选择，包括继续把 Codex 推到多远，以及文本模型和 world model 的押注差异。对观察 OpenAI 路线的人来说，价值在于它暴露了公司内部对“下一个主战场”怎么排优先级。
🔗 链接

📊 YouTube 1 条 | 播客 1 条 | 博客 5 条 | Techmeme 5 条 | 精选 12 条