Teigen's Daily
X Digest · 🐦 X 简报

2026-05-28

🤖 AI/ML

@GodOfPrompt:新基准 DeepSWE 把代码任务改成手写、浅克隆和独立验证器,暴露了旧 coding leaderboard 可能被数据污染和测试捷径严重抬高,模型评测的可信度比单个排名更值得关注。🔗 链接

@polynoamial:Noam Brown 把 AlphaGo 之后人类棋力提升类比到数学,提醒我们关注 AI 不只是替代专家,也可能反过来提高人类专家的训练水平。🔗 链接

@indigox:一个东京“一人公司”案例里,Agents 已经在建设维护网站、管理销售、监督客服和给客户部署,说明小团队的组织形态正在从雇人扩张转向指挥 agent 网络。🔗 链接

@FinanceYF5:这条把“模型只是系统最小部分、真正干活的是驾驭层”讲清楚,和最近 agent 产品从 demo 走向生产时必须补齐 harness、流程和运维层的趋势高度一致。🔗 链接

@DerekNee:有人开始搭建 Codex 与 Claude Code 的独立持续基准,每两天用 TerminalBench2 难题检测能力波动,说明开发者正在用外部监控对冲闭源工具“悄悄变弱”的风险。🔗 链接

@FinanceYF5:Cognition 被曝以 260 亿美元投前估值融资超 10 亿美元,年收入从 3700 万美元冲到约 5 亿美元,agent lab 已经从概念叙事进入资本和收入都很硬的阶段。🔗 链接

@elonmusk:SpaceX 正在用 C 写面向 22 万张 GB300 和 800G 网卡的内部 AI 训练栈,目标比 JAX 大训练提速一个数量级,顶级算力玩家开始把训练框架优化打到裸金属层。🔗 链接

@ednewtonrex:环球和索尼申请把 6.1 万首歌加入对 Suno 的版权诉讼,若按法定最高赔偿计算风险超过 90 亿美元,生成音乐的版权战正在从原则争议变成巨额财务风险。🔗 链接

@emollick:一篇论文不看破折号之类表层痕迹,而是研究 AI 叙事结构和人类叙事的差异,提示“AI 味”更深层地藏在故事组织方式里,不是简单改风格就能抹掉。🔗 链接

@c_valenzuelab:Cristóbal Valenzuela 反向提出未来大多数视频都可能是 AI 生成,所以与其标注 AI 视频,不如标注真实相机拍摄内容,这个判断直接挑战当前内容治理默认方向。🔗 链接

@levie:Aaron Levie 说企业 agent 落地岗位数量可能比预期多 10 倍甚至 100 倍,因为从聊天系统走到关键生产系统会暴露巨大的实施缺口,AI 部署反而创造了新型运营需求。🔗 链接

@xwang_lk:PARE 把主动式 agent 的研究推到移动和 AR 场景,重点是持续理解上下文、预测意图并实时帮忙,下一代 agent 的核心可能不只是更会执行,而是更会判断何时介入。🔗 链接

@FuSheng_0306:这条借 Anthropic 的 MTS title、蜂巢思维和篝火模式讨论 AI 公司组织层级,核心信息是 AI 协调能力正在削弱传统中层和瀑布式管理的必要性。🔗 链接

@SakanaAILabs:Sakana AI 发布 DiffusionBlocks,让神经网络按块独立训练、把显存需求降到单块级别,并在图像和文本架构上接近端到端训练效果,大模型训练的资源约束又有新解法。🔗 链接

💻 Tech

@Google:YouTube 推出 Ask YouTube,把视频搜索从关键词列表变成可追问的结构化答案,长视频和 Shorts 的内容发现正在明显向对话式检索迁移。🔗 链接

📊 扫描 257 条 | 覆盖 22.9h | 精选 15 条

同日其他 — 2026-05-28
J 更早   K 更新   G 归档   / 主题