X 简报 · 2026-06-21 · 张腾甘的每日简报

🤖 AI/ML

@IntuitMachine：Carlos E. Perez 把 Agent 失败归因从“模型不够强”转向“运行脚手架太静态”，提到 HarnessX 通过让 prompt、工具、记忆和控制流随执行轨迹演化，在弱模型上拿到更大的收益。🔗 链接
@rauchg：Guillermo Rauch 说 GLM-5.2 在代码能力上“好到震惊”，开源权重模型逼近前沿编码能力这件事又多了一个强信号。🔗 链接
@Hesamation：Hesam 补充 GLM 5.2 在 FrontierSWE 长程工程任务上排名异常靠前，用 OpenCode 的体验也接近 Claude Code 和 Codex，说明开源模型正在进入真实 agentic engineering 场景。🔗 链接
@emollick：Ethan Mollick 用 GPT-5.5 Pro 重新检查自己的早期论文，模型不仅找错，还补新数据、复现分析并扩展论证，这提示旧学术成果可能会被 AI 大规模重新审阅。🔗 链接
@MengTo：Meng To 说自己 95% 工作都在 Codex 里完成，特别点名 GPT-5.5 xHigh、电脑/浏览器使用、spawned threads 和移动端接任务，Codex 正从代码工具变成日常工作操作系统。🔗 链接
@AlexFinn：Alex Finn 把 Codex 称为目前最强 agent harness，并举例让它自动写代码、推 GitHub、连 Vercel 和配域名，说明“编码 agent”正在外溢到完整电脑任务执行。🔗 链接
@bindureddy：Bindu Reddy 展示 Abacus AI agent 能嵌入任意 app、做系统设计并生成 3D 数据中心模型，多模型编排正在从聊天转向复杂可视化工作台。🔗 链接
@levelsio：levelsio 给酒店搜索站接入 AI 助手，让它直接控制地图和筛选酒店，并强调不是加一个 AI 按钮，而是在 AI-first 产品里补上自然交互层。🔗 链接
@MillionInt：Jerry Tworek 认为 agent 世界里静态类型的收益正在快速超过代价，这意味着编程语言市场可能会被“给 agent 可验证结构”重新定价。🔗 链接
@levie：Aaron Levie 观察到开源权重模型在编码等具体任务上接近前沿模型，边际差距如果不扩大，会让 AI 任务成本下降并扩大整体使用量。🔗 链接
@Teigen27：小蛙从《四千周》延伸到 AI 时代的“有限性”，指出 AI 扩展能力边界也会制造无限幻觉，而额度用不完的焦虑本质上可能是对有限性的抵抗。🔗 链接

💻 Tech

@petergyang：Peter Yang 提到 HyperFrames 能用 HTML 生成视频，并通过 Codex/Claude Code 工作流完成 frame.md 和 storyboard，这把网页、视频和 coding agent 串成了新创作链路。🔗 链接
@vista8：向阳乔木开源 Codex 图标设计 Skill，支持 Imagen 生图和 2 万 SVG 图标检索，说明“给开发 agent 安装垂直技能”正在覆盖设计小任务。🔗 链接
@9hills：9hills 发现 devspace 可以让 ChatGPT 网页端操作本地并读取 AGENTS.md 和 skills，虽然速度慢，但把网页模型额度接到本地执行环境是个值得留意的方向。🔗 链接

🌐 其他热点

@alex_prompter：Alex Prompter 称 AlphaFold 共同创造者 John Jumper 离开 Google DeepMind 加入 Anthropic，并把它和 Noam Shazeer 去 OpenAI 放在一起看，人才流动正在成为 AI 实验室竞争的外显指标。🔗 链接

📊 扫描 245 条 | 覆盖 25.2h | 精选 15 条