2026-04-08
🎬 YouTube
- Michael Nielsen – Why aliens will have a different tech stack than us|Dwarkesh Patel
这期对谈把视角拉到“外星技术栈”这个思想实验上,核心不是猎奇,而是逼着我们区分哪些技术选择是物理规律决定的,哪些只是人类历史路径依赖的结果。Michael Nielsen 一直关注科学发现与智能系统的结构,这个题目大概率会落在计算范式、表示方式,以及不同智能体如何组织知识上。
🔗 链接
🎙️ 播客
- Extreme Harness Engineering for Token Billionaires|Latent Space
这期节目聚焦 OpenAI Frontier / Symphony 的 Ryan Lopopolo,标题里直接给出几个夸张但关键的指标:100 万行 harness 代码、每天 10 亿 token、几乎 0% 人工编码和 0% 人工 review。重点显然是大模型研发正在从“调模型”转向“造流水线”,把评测、回归、自动修复和实验编排做成超大规模的软件工程体系。
🔗 链接
📝 博客
-
GLM-5.1: Towards Long-Horizon Tasks|simonwillison.net
Simon 关注的是 Z.ai 发布的 GLM-5.1,这是一篇典型的“新模型能力速读”。从标题看,重点在 long-horizon tasks,也就是模型能否在更长链路任务里保持状态、规划和执行一致性,这比单点 benchmark 更接近真实 agent 场景。
🔗 链接 -
Anthropic's Project Glasswing - restricting Claude Mythos to security researchers - sounds necessary to me|simonwillison.net
这篇文章讨论 Anthropic 对 Claude Mythos / Glasswing 采取更严格发布限制的必要性。Simon 的态度在标题里已经很明确,他认为把高风险安全能力只开放给安全研究者是合理的,这反映出前沿模型开始面对“能力太强,不能直接全量公开”的现实。
🔗 链接 -
SQLite WAL Mode Across Docker Containers Sharing a Volume|simonwillison.net
这篇偏工程实践,讨论多个 Docker 容器共享卷时 SQLite 的 WAL 模式会遇到什么问题。虽然不是纯 AI 内容,但对大量本地 agent、抓取器和轻量数据管线很实用,因为很多 AI 工具都拿 SQLite 当默认状态库。
🔗 链接 -
Writing an LLM from scratch, part 32i -- Interventions: what is in the noise?|gilesthomas.com
Giles Thomas 继续他的“从零写 LLM”系列,这一篇已经进入很细的内部机制分析。标题里的 interventions 和 noise 指向一个关键问题:当你干预模型内部表征时,真正起作用的信号是什么,哪些又只是看起来相关的噪声。
🔗 链接 -
Sam Altman, in a Video Released by OpenAI, Apparently Thinks AGI Is Going to Hit Society Like a Once-a-Century Pandemic|daringfireball.net
Daring Fireball 转述的是 OpenAI 发布视频里 Sam Altman 对 AGI 社会冲击的表述,甚至被类比成“百年一遇的大流行病”。这个标题本身就很有火药味,重点不是技术细节,而是 OpenAI 高层如何向公众 framing AGI 的速度与冲击。
🔗 链接
🗞️ Techmeme 热点
-
Anthropic 挖来微软高管 Eric Boyd 负责基础设施
Boyd 在微软待了 16 年,长期负责 AI 平台相关工作。Anthropic 把这类基础设施高管拉进来,说明它已经把训练、推理和平台化能力视为核心竞争壁垒,而不只是模型研究问题。
🔗 链接 -
Z.ai 发布 GLM-5.1,称其在 SWE-bench Pro 上超过 GPT-5.4 和 Claude Opus 4.6
这是今天模型圈最直接的性能宣言之一,参数规模达到 754B,而且采用 MIT 许可证可用。即便具体评测还要再看复现,这也说明中国团队正在更积极地用开放许可和 agent benchmark 抢技术话语权。
🔗 链接 -
Google Photos 在 Android 全球推出 AI Enhance 按钮
这个功能主打自动光照和对比度优化,同时还加了视频播放速度控制。它不是前沿大模型新闻,但很能说明 AI 正在继续以“轻交互、默认开启”的方式渗进消费级产品。
🔗 链接 -
Anthropic 称 Mythos Preview 在 SWE-bench Verified 达到 93.9%
对比 Opus 4.6 的 80.8%,这个提升非常激进;在 SWE-bench Pro 上也给出 77.8% 对 53.4% 的成绩。结合它没有公开发布而是限制给安全研究者,Anthropic 显然在强化一个叙事:模型已经强到必须先管风险再谈普及。
🔗 链接 -
OpenAI 总裁 Greg Brockman 谈研究方向、Codex 上限和 Sora 收尾
这场 Q&A 涵盖 OpenAI 现在最关键的产品和研究选择,包括继续把 Codex 推到多远,以及文本模型和 world model 的押注差异。对观察 OpenAI 路线的人来说,价值在于它暴露了公司内部对“下一个主战场”怎么排优先级。
🔗 链接
📊 YouTube 1 条 | 播客 1 条 | 博客 5 条 | Techmeme 5 条 | 精选 12 条