2026-04-23
🎬 YouTube
无近期更新。
🎙️ 播客
1. Shopify 的 AI 进入“相变”阶段:内部工具全面铺开
Latent Space 采访 Shopify CTO Mikhail Parakhin,核心信息是 Shopify 内部 AI 使用在 2025 年 12 月后出现明显拐点,CLI 风格工具增长快过传统 IDE 插件。团队现在把瓶颈定义为 review、CI/CD 和回滚稳定性,而不是“模型能不能写代码”。
他们还详细讲了三个内部系统:Tangle 做可复现实验和缓存复用,Tangent 做自动化研究与优化,SimGym 用历史行为数据模拟顾客决策。一个很值得注意的点是:Shopify 认为“token 预算”方向上是对的,但单看 token 数并不能衡量真实工程产出。🔗 链接
📝 博客
1. Qwen3.6-27B:27B 稠密模型冲击旗舰级代码能力
Simon Willison 关注的是 Qwen 最新开源权重模型:官方声称 Qwen3.6-27B 在 agentic coding 上超过上一代 397B MoE 旗舰,但体积从 807GB 量级降到约 55.6GB。Simon 自己跑了 16.8GB 的量化版,在本地生成复杂 SVG,单次生成 4,444 token 用时约 2 分 53 秒,速度约 25.6 token/s。
这篇的含金量在于它不是只转 benchmark,而是给了本地部署参数、实际样例和速度数字,说明“能在个人机器上跑出像样代码生成结果”的门槛又往下掉了一截。🔗 链接
2. Gary Marcus:ChatGPT 连“打蛋器和手肘”都分不清,功能理解仍然薄弱
Gary Marcus 用一个读者提供的案例批评 ChatGPT 新图像系统:模型也许能画得更像,但对物体功能、结构关系和常识约束的理解仍然不可靠。文章标题里的 “doesn’t know its whisk from its elbow” 就是在强调它会把工具、身体部位和用途关系混淆。
这篇不是在否认生成质量提升,而是在提醒大家:视觉逼真不等于世界模型成熟,尤其不能把“会画”误认为“真的懂”。🔗 链接
3. Gary Marcus 再批 ChatGPT 新图像引擎:能回忆样式,不代表理解功能
Marcus 的另一篇短文继续围绕 ChatGPT 新图像引擎展开,观点非常直接:外界对这套系统的兴奋有点过头了,因为它在功能性理解上依然有限。用他的话说,这更像是强大的模式回忆与重组,而不是可靠的概念理解。
如果你最近在看“多模态是不是已经接近通用理解”这类讨论,这篇正好提供了一个唱反调但有必要的视角。🔗 链接
4. Steve Blank:AI 把创业课的 MVP 周期压缩到“按小时算”
Steve Blank 说今年斯坦福 Lean LaunchPad 的学生在第一节课就带着接近成品的 MVP 来了,因为他们已经用 Perplexity、ChatGPT、Claude Code、Replit、v0、Granola 等工具把研究、编码、原型和访谈整理串起来了。变化不是“更快一点”,而是过去几周到几个月的流程被压缩成了几小时到几天。
但他也观察到一个反直觉问题:产品开发速度已经快过学习速度,团队能造出更多产品,却不一定更快验证用户需求。文章最后给出的判断很重要——未来瓶颈不再是“能不能做出来”,而是判断力、客户验证和结果导向的 workflow 设计。🔗 链接
5. 从零写 LLM 系列作者复盘:边查文档边踩坑,反而学得更深
Giles Thomas 读完《Build a Large Language Model (from Scratch)》附录后复盘,发现附录里其实覆盖了他前面花大量时间自己摸索的内容,比如 DistributedDataParallel、gradient clipping、learning rate warmup + cosine decay、LoRA 等。也就是说,如果他早点看附录,确实能少走不少弯路。
但他给出的结论挺有意思:直接看讲解学得更快,自己调试、撞墙、修通则学得更深。下一步他准备不用书里的框架,直接用 JAX 再手写一遍 GPT-2 风格模型,作为这一长系列的收官。🔗 链接
6. 微软提出 MCP 安全治理层:别再把“模型自己会守规矩”当边界
微软这篇文章点得很准:MCP 统一了 agent 调工具的接口,但没有内建“这个调用此刻是否允许”的治理检查点。官方提到他们在 60 个红队场景里测试,只靠 prompt safety instruction 时,策略违规率仍有 26.67%。
为此他们开源了 Agent Governance Toolkit(AGT),在工具定义扫描、逐次调用策略校验、响应检查之间插入一层控制平面。它的价值不在于让模型“更乖”,而在于把权限判断从模型主观解释,变成可审计、可拒绝、可要求审批的确定性执行。🔗 链接
🗞️ Techmeme 热点
1. 微软宣布 Copilot 在 Word / Excel / PowerPoint 的 agent 能力正式 GA
微软表示,Word、Excel 和 PowerPoint 里的 Copilot agentic 功能现在已对 Microsoft 365 Copilot 和 365 Premium 用户正式开放,并且默认启用。这个信号很明确:agent 不再只是独立产品形态,而是开始原生嵌入办公套件的主流程里。🔗 链接
2. 英美 4000 人调查:高收入、高资历人群采用 AI 的速度显著更快
Financial Times 引述的一项调查显示,在美国和英国的 4000 名职场人中,收入更高、经验更老到的人群,工作中使用 AI 的速度明显快于其他群体。这意味着 AI 红利暂时并没有平均分配,反而可能先强化原本已经占优的职业阶层。🔗 链接
3. 中国 360 据报用 AI agent 挖出近千个未知漏洞
彭博援引消息称,360 Digital Security Group 利用 AI 驱动的 agent 发现了约 1000 个此前未知的漏洞,其中包括微软 Office 的漏洞。这个点很敏感:AI 在安全领域已经不只是辅助分析,而是在漏洞发现链路里开始承担“规模化搜索器”的角色。🔗 链接
4. OpenAI 发布 ChatGPT for Clinicians,面向美国认证医务人员免费开放
OpenAI 推出了 ChatGPT for Clinicians,覆盖文档整理、研究等医疗任务,对美国经过验证的医生、药剂师等职业群体免费开放。它释放的信号是:ChatGPT 正继续沿着垂直职业工作流深入,而不是只停留在通用助手层面。🔗 链接
5. TSMC 公布到 2029 年工艺路线图,AI/HPC 节奏更清晰
Techmeme 汇总显示,台积电规划到 2029 年持续推进工艺节点更新:面向客户端应用基本保持每年一代,面向 AI 和 HPC 大致两年一代。这对上游算力市场是很关键的基线信息,因为它意味着先进制程供给与 AI 计算需求之间的协同,已经被放进更长期的产业节奏里。🔗 链接
📊 YouTube 0 条 | 播客 1 条 | 博客 6 条 | Techmeme 5 条 | 精选 12 条