AI 信息源 · 2026-04-23 · 张腾甘的每日简报

🎬 YouTube

无近期更新。

🎙️ 播客

1. Shopify 的 AI 进入“相变”阶段：内部工具全面铺开

Latent Space 采访 Shopify CTO Mikhail Parakhin，核心信息是 Shopify 内部 AI 使用在 2025 年 12 月后出现明显拐点，CLI 风格工具增长快过传统 IDE 插件。团队现在把瓶颈定义为 review、CI/CD 和回滚稳定性，而不是“模型能不能写代码”。
他们还详细讲了三个内部系统：Tangle 做可复现实验和缓存复用，Tangent 做自动化研究与优化，SimGym 用历史行为数据模拟顾客决策。一个很值得注意的点是：Shopify 认为“token 预算”方向上是对的，但单看 token 数并不能衡量真实工程产出。🔗 链接

📝 博客

1. Qwen3.6-27B：27B 稠密模型冲击旗舰级代码能力

Simon Willison 关注的是 Qwen 最新开源权重模型：官方声称 Qwen3.6-27B 在 agentic coding 上超过上一代 397B MoE 旗舰，但体积从 807GB 量级降到约 55.6GB。Simon 自己跑了 16.8GB 的量化版，在本地生成复杂 SVG，单次生成 4,444 token 用时约 2 分 53 秒，速度约 25.6 token/s。
这篇的含金量在于它不是只转 benchmark，而是给了本地部署参数、实际样例和速度数字，说明“能在个人机器上跑出像样代码生成结果”的门槛又往下掉了一截。🔗 链接

2. Gary Marcus：ChatGPT 连“打蛋器和手肘”都分不清，功能理解仍然薄弱

Gary Marcus 用一个读者提供的案例批评 ChatGPT 新图像系统：模型也许能画得更像，但对物体功能、结构关系和常识约束的理解仍然不可靠。文章标题里的 “doesn’t know its whisk from its elbow” 就是在强调它会把工具、身体部位和用途关系混淆。
这篇不是在否认生成质量提升，而是在提醒大家：视觉逼真不等于世界模型成熟，尤其不能把“会画”误认为“真的懂”。🔗 链接

3. Gary Marcus 再批 ChatGPT 新图像引擎：能回忆样式，不代表理解功能

Marcus 的另一篇短文继续围绕 ChatGPT 新图像引擎展开，观点非常直接：外界对这套系统的兴奋有点过头了，因为它在功能性理解上依然有限。用他的话说，这更像是强大的模式回忆与重组，而不是可靠的概念理解。
如果你最近在看“多模态是不是已经接近通用理解”这类讨论，这篇正好提供了一个唱反调但有必要的视角。🔗 链接

4. Steve Blank：AI 把创业课的 MVP 周期压缩到“按小时算”

Steve Blank 说今年斯坦福 Lean LaunchPad 的学生在第一节课就带着接近成品的 MVP 来了，因为他们已经用 Perplexity、ChatGPT、Claude Code、Replit、v0、Granola 等工具把研究、编码、原型和访谈整理串起来了。变化不是“更快一点”，而是过去几周到几个月的流程被压缩成了几小时到几天。
但他也观察到一个反直觉问题：产品开发速度已经快过学习速度，团队能造出更多产品，却不一定更快验证用户需求。文章最后给出的判断很重要——未来瓶颈不再是“能不能做出来”，而是判断力、客户验证和结果导向的 workflow 设计。🔗 链接

5. 从零写 LLM 系列作者复盘：边查文档边踩坑，反而学得更深

Giles Thomas 读完《Build a Large Language Model (from Scratch)》附录后复盘，发现附录里其实覆盖了他前面花大量时间自己摸索的内容，比如 DistributedDataParallel、gradient clipping、learning rate warmup + cosine decay、LoRA 等。也就是说，如果他早点看附录，确实能少走不少弯路。
但他给出的结论挺有意思：直接看讲解学得更快，自己调试、撞墙、修通则学得更深。下一步他准备不用书里的框架，直接用 JAX 再手写一遍 GPT-2 风格模型，作为这一长系列的收官。🔗 链接

6. 微软提出 MCP 安全治理层：别再把“模型自己会守规矩”当边界

微软这篇文章点得很准：MCP 统一了 agent 调工具的接口，但没有内建“这个调用此刻是否允许”的治理检查点。官方提到他们在 60 个红队场景里测试，只靠 prompt safety instruction 时，策略违规率仍有 26.67%。
为此他们开源了 Agent Governance Toolkit（AGT），在工具定义扫描、逐次调用策略校验、响应检查之间插入一层控制平面。它的价值不在于让模型“更乖”，而在于把权限判断从模型主观解释，变成可审计、可拒绝、可要求审批的确定性执行。🔗 链接

🗞️ Techmeme 热点

1. 微软宣布 Copilot 在 Word / Excel / PowerPoint 的 agent 能力正式 GA

微软表示，Word、Excel 和 PowerPoint 里的 Copilot agentic 功能现在已对 Microsoft 365 Copilot 和 365 Premium 用户正式开放，并且默认启用。这个信号很明确：agent 不再只是独立产品形态，而是开始原生嵌入办公套件的主流程里。🔗 链接

2. 英美 4000 人调查：高收入、高资历人群采用 AI 的速度显著更快

Financial Times 引述的一项调查显示，在美国和英国的 4000 名职场人中，收入更高、经验更老到的人群，工作中使用 AI 的速度明显快于其他群体。这意味着 AI 红利暂时并没有平均分配，反而可能先强化原本已经占优的职业阶层。🔗 链接

3. 中国 360 据报用 AI agent 挖出近千个未知漏洞

彭博援引消息称，360 Digital Security Group 利用 AI 驱动的 agent 发现了约 1000 个此前未知的漏洞，其中包括微软 Office 的漏洞。这个点很敏感：AI 在安全领域已经不只是辅助分析，而是在漏洞发现链路里开始承担“规模化搜索器”的角色。🔗 链接

4. OpenAI 发布 ChatGPT for Clinicians，面向美国认证医务人员免费开放

OpenAI 推出了 ChatGPT for Clinicians，覆盖文档整理、研究等医疗任务，对美国经过验证的医生、药剂师等职业群体免费开放。它释放的信号是：ChatGPT 正继续沿着垂直职业工作流深入，而不是只停留在通用助手层面。🔗 链接

5. TSMC 公布到 2029 年工艺路线图，AI/HPC 节奏更清晰

Techmeme 汇总显示，台积电规划到 2029 年持续推进工艺节点更新：面向客户端应用基本保持每年一代，面向 AI 和 HPC 大致两年一代。这对上游算力市场是很关键的基线信息，因为它意味着先进制程供给与 AI 计算需求之间的协同，已经被放进更长期的产业节奏里。🔗 链接

📊 YouTube 0 条 | 播客 1 条 | 博客 6 条 | Techmeme 5 条 | 精选 12 条