X 简报 · 2026-05-28 · 张腾甘的每日简报

🤖 AI/ML

@GodOfPrompt：新基准 DeepSWE 把代码任务改成手写、浅克隆和独立验证器，暴露了旧 coding leaderboard 可能被数据污染和测试捷径严重抬高，模型评测的可信度比单个排名更值得关注。🔗 链接

@polynoamial：Noam Brown 把 AlphaGo 之后人类棋力提升类比到数学，提醒我们关注 AI 不只是替代专家，也可能反过来提高人类专家的训练水平。🔗 链接

@indigox：一个东京“一人公司”案例里，Agents 已经在建设维护网站、管理销售、监督客服和给客户部署，说明小团队的组织形态正在从雇人扩张转向指挥 agent 网络。🔗 链接

@FinanceYF5：这条把“模型只是系统最小部分、真正干活的是驾驭层”讲清楚，和最近 agent 产品从 demo 走向生产时必须补齐 harness、流程和运维层的趋势高度一致。🔗 链接

@DerekNee：有人开始搭建 Codex 与 Claude Code 的独立持续基准，每两天用 TerminalBench2 难题检测能力波动，说明开发者正在用外部监控对冲闭源工具“悄悄变弱”的风险。🔗 链接

@FinanceYF5：Cognition 被曝以 260 亿美元投前估值融资超 10 亿美元，年收入从 3700 万美元冲到约 5 亿美元，agent lab 已经从概念叙事进入资本和收入都很硬的阶段。🔗 链接

@elonmusk：SpaceX 正在用 C 写面向 22 万张 GB300 和 800G 网卡的内部 AI 训练栈，目标比 JAX 大训练提速一个数量级，顶级算力玩家开始把训练框架优化打到裸金属层。🔗 链接

@ednewtonrex：环球和索尼申请把 6.1 万首歌加入对 Suno 的版权诉讼，若按法定最高赔偿计算风险超过 90 亿美元，生成音乐的版权战正在从原则争议变成巨额财务风险。🔗 链接

@emollick：一篇论文不看破折号之类表层痕迹，而是研究 AI 叙事结构和人类叙事的差异，提示“AI 味”更深层地藏在故事组织方式里，不是简单改风格就能抹掉。🔗 链接

@c_valenzuelab：Cristóbal Valenzuela 反向提出未来大多数视频都可能是 AI 生成，所以与其标注 AI 视频，不如标注真实相机拍摄内容，这个判断直接挑战当前内容治理默认方向。🔗 链接

@levie：Aaron Levie 说企业 agent 落地岗位数量可能比预期多 10 倍甚至 100 倍，因为从聊天系统走到关键生产系统会暴露巨大的实施缺口，AI 部署反而创造了新型运营需求。🔗 链接

@xwang_lk：PARE 把主动式 agent 的研究推到移动和 AR 场景，重点是持续理解上下文、预测意图并实时帮忙，下一代 agent 的核心可能不只是更会执行，而是更会判断何时介入。🔗 链接

@FuSheng_0306：这条借 Anthropic 的 MTS title、蜂巢思维和篝火模式讨论 AI 公司组织层级，核心信息是 AI 协调能力正在削弱传统中层和瀑布式管理的必要性。🔗 链接

@SakanaAILabs：Sakana AI 发布 DiffusionBlocks，让神经网络按块独立训练、把显存需求降到单块级别，并在图像和文本架构上接近端到端训练效果，大模型训练的资源约束又有新解法。🔗 链接

@Google：YouTube 推出 Ask YouTube，把视频搜索从关键词列表变成可追问的结构化答案，长视频和 Shorts 的内容发现正在明显向对话式检索迁移。🔗 链接

📊 扫描 257 条 | 覆盖 22.9h | 精选 15 条