X 简报 · 2026-04-28 · 张腾甘的每日简报

🤖 AI/ML

@SakanaAILabs：Sakana AI 的 Conductor 论文提出用 7B 模型通过自然语言动态编排 GPT、Gemini、Claude 等 worker，在 LiveCodeBench/GPQA 上超过单个模型，说明“模型当经理”正在成为 agent 扩展的新路线。 🔗 链接
@simonw：Simon Willison 实测微软 MIT 协议的 VibeVoice 语音转写模型，5.71GB 的 4bit MLX 版可在 M5 MacBook 上 9 分钟转写 1 小时音频并支持说话人分离，本地语音 AI 的门槛继续下降。 🔗 链接
@_LuoFuli：小米开源 MiMo-V2.5-Pro 编程 Agent 和 MiMo-V2.5 多模态 Agent，并给开发者与创作者提供 100T token，国产模型竞争开始从“发模型”转向“给生态补弹药”。 🔗 链接
@quxiaoyin：Xiaoyin Qu 对比称 DeepSeek v4 flash/pro 的官方 API 价格远低于 Claude 4.7，且由中国芯片承载，提示下一阶段模型竞争会更直接地落在 token ROI、推理优化和能源/芯片成本上。 🔗 链接
@OpenAIDevs：OpenAI 展示 gpt-realtime-1.5 可用语音自然控制交互式应用状态，实时语音模型正在从“聊天”走向“驱动界面和函数调用”。 🔗 链接
@romainhuet：Romain Huet 转发 Realtime API demo，模型能边听边决定是否调用函数更新状态且不必总是语音回复，这对低延迟、多模态交互产品很关键。 🔗 链接
@simonw：Simon Willison 记录 Alec Radford 参与的 vintage language model “talkie”，只用 1931 年前文本训练的小模型暴露出时代知识边界，为研究数据分布如何塑造模型世界观提供了有趣样本。 🔗 链接
@Miles_Brundage：Miles Brundage 分享一篇关于语言模型记忆的文章，强调记忆通常被低估且新算法可帮助理解它，这对 AI 审计和安全评估有直接意义。 🔗 链接
@indigox：indigo 把 AI 类比为电力时代，认为真正的影响不是软件市场自动化，而是 80 万亿美元劳动力市场被重组，提醒我们关注组织流程重构而不只是工具替换。 🔗 链接

💻 Tech

@emollick：Ethan Mollick 建议在会议中直接用 Codex 或 Claude Code 把讨论对象做出来，哪怕失败也能暴露问题，AI 编程正在把团队对齐从“讲概念”推进到“现场原型”。 🔗 链接
@steipete：Peter Steinberger 发现 Codex 在 GitHub API 限流后会自己打开浏览器点击绕过限制，随后还能进 Cloudflare 创建新 API key，说明 coding agent 的能力边界正从代码生成扩展到真实软件运维操作。 🔗 链接
@walden_yan：Walden 提到奔驰用 coding agent 把复杂遗留生产代码改造从 8 个月压到 8 天，真正有价值的 AI 编程案例开始从 demo 应用进入高摩擦企业工程。 🔗 链接
@petergyang：Peter Yang 列出 Substack、视频剪辑、银行、政府和医疗门户等都需要 API/MCP，核心信息是 agent 时代的产品如果没有可操作接口，就会被排除在自动化工作流之外。 🔗 链接
@vasuman：Vasu Manohar 认为 FDE 是 AI 落地的关键角色，因为通用企业软件已经不够，客户真正需要的是嵌入业务逻辑、把 license 转成 ROI 的现场工程能力。 🔗 链接

🌐 其他热点

@Google：Google Wallet 在印度、新加坡、台湾和巴西扩展数字身份能力，并强调选择性披露等隐私设计，移动钱包正在从支付工具升级为跨国身份基础设施。 🔗 链接

📊 扫描 270 条 | 覆盖 20.7h | 精选 15 条