AI 信息源 · 2026-04-24 · 张腾甘的每日简报

🎬 YouTube

Matthew Berman / OpenAI just dropped GPT-5.5... (WOAH)
作者基于两周实测，认为 GPT-5.5 在 agentic coding、computer use、知识工作和早期科研场景上都有明显提升。和 GPT-5.4 相比，它保持接近的响应速度，但单位 token 的有效信息更高，因此整体成本未必更贵。视频还提到 GPT-5.5 的表达更简洁、不那么“机械”，并引用 Box 的企业评测称准确率从 67% 提升到 77%，金融和医疗等行业增幅尤其明显。
🔗 链接
Lenny's Podcast / How Anthropic’s product team moves faster than anyone else | Cat Wu (Head of Product, Claude Code)
Cat Wu 详细讲了 Claude Code 团队如何把功能交付周期从 6 个月压缩到 1 个月，极端情况下甚至能做到 1 天上线。她认为 AI 产品经理的核心能力正在从“写需求文档”转向“高频迭代 + 产品品味”，因为代码越来越便宜，真正稀缺的是判断什么值得做、如何把当下模型能力榨到极限。她也提到自己大量精力放在跨团队对齐上，确保营销、销售、容量规划这些环节不会在功能 ready 后变成阻塞点。
🔗 链接
Weaviate / Building a production-ready legal RAG app... in one prompt
Weaviate 团队分享了一个很硬核的案例：为了帮内部财务团队处理合同检索，他们在 36 小时内搭出一个可直接使用的法律助手。关键不是传统“向量检索 + 回答”的 RAG，而是让 agent 先理解 schema、拆解问题、构造过滤条件、组合混合检索，再输出带引用来源的答案。数据层使用多向量 PDF 表征和 MuVERA 压缩，并把合同拆成三类集合做路由；整套系统用 Claude Code、Weaviate Agent Skills 和一条长 prompt 在 12 分钟内跑出来，消耗约 2 万 token，成本大约 0.3 美元。
🔗 链接

🎙️ 播客

No Priors / SAP: Bringing the ‘Operating System’ of a Company into the AI Era with CTO Philipp Herzig
从搜索结果摘要看，这期节目围绕 SAP 如何把企业“操作系统”带入 AI 时代展开。Philipp Herzig 提到 SAP 正在 UI、业务流程和数据三层做系统性重构，把 AI 深嵌进约 40 万家企业客户的核心系统里；同时把 AI Foundation 当作 SAP Business AI 的“AI operating system”，目标是统一 AI 的开发与运维能力。当前没有拿到可靠直链，所以这里不伪造链接。
链接：暂无可靠直链
Latent Space / AIE Europe Debrief + Agent Labs Thesis: Unsupervised Learning x Latent Space Crossover Special (2026)
这期 crossover 基本是在给 2026 年 AI 行业画路标：coding AI 仍然是增长最强、最具日常使用黏性的赛道，而且很可能从“写代码”扩展到更多工作流，进入所谓的“coding agents break containment”阶段。节目也反复强调，infra 公司往往比应用公司更难活，因为模型层变化太快；而 memory、personalization、开放模型、专用芯片、后训练/RL，以及 AI 对 SaaS 的替代张力，都是接下来最值得盯的方向。
🔗 链接

📝 博客

Simon Willison / DeepSeek V4—almost on the frontier, a fraction of the price
DeepSeek 发布了 V4-Pro 和 V4-Flash 两个预览模型，二者都支持 100 万 token 上下文；其中 V4-Pro 为 1.6T 总参数 / 49B 激活参数，V4-Flash 为 284B / 13B，且都采用 MIT 许可。Simon 认为 V4-Pro 已经是目前最大的一批 open weights 模型之一，更重要的是定价非常凶：Flash 输入/输出每百万 token 仅 $0.14 / $0.28，Pro 也只有 $1.74 / $3.48。论文还声称在 1M context 下，V4 系列的 FLOPs 和 KV cache 需求相比 V3.2 显著下降，这解释了它为什么能把价格压到这么低。
🔗 链接
Simon Willison / An update on recent Claude Code quality reports
Anthropic 的复盘承认，最近不少用户感觉 Claude Code 变差，并不只是主观错觉，而是 harness 层三个独立问题叠加造成的真实质量回退。Simon 特别点出一个很典型的 bug：本来只该在 session 闲置超过 1 小时后执行一次的“清理旧 thinking”逻辑，被错误地在之后的每一轮都触发，结果让模型显得健忘、重复。这个案例很值得 agent 产品团队警惕——很多体验问题不一定出在模型本身，而是出在 orchestration 和 session 管理层。
🔗 链接
TechCrunch / Unauthorized group has gained access to Anthropic’s exclusive cyber tool Mythos, report claims
TechCrunch 援引报道说，一批未授权用户通过第三方 vendor 环境接触到了 Anthropic 只向少数合作伙伴开放的安全模型 Mythos。相关 Discord 群体据称在模型公开同一天就通过猜测其在线位置获得访问，还向媒体展示了截图和 live demo；Anthropic 表示正在调查，目前尚未发现自家系统受到影响。这个事件说明，高风险模型即便做了限制发布，真正脆弱的地方仍然可能出在供应链、测试环境和访问隔离上。
🔗 链接
Microsoft Developer Blog / LangChain.js for Beginners: A Free Course to Build Agentic AI Apps with JavaScript
微软上线了一套免费的 LangChain.js 教程，共 8 章、70 多个可运行的 TypeScript 示例，目标很明确：让熟悉 JavaScript 的开发者直接上手 agentic AI，而不是被迫切到 Python 生态。课程编排也很有意思，它先讲 tools、agents、MCP，再讲 documents、embeddings 和 Agentic RAG，强调“先让 agent 学会判断何时需要检索”，而不是默认所有问题都先做 RAG。附带的 capstone 还是一个 MCP 驱动的 RAG server，明显偏向实战落地。
🔗 链接
Simon Willison / It's a big one
这是 Simon 本周 newsletter 的总入口，汇总了本周 5 篇博客、8 条链接、3 段引用，以及《Agentic Engineering Patterns》的新章节。虽然它不是单一主题长文，但很适合作为索引页，一站式补齐这周 AI 工程和 agent 方向的重要更新。
🔗 链接

🗞️ Techmeme 热点

与 Google Cloud CEO Thomas Kurian 的问答：如何为 AI agents 构建基础设施
Kurian 讨论了 Google Cloud 如何同时满足内部产品需要，以及 Anthropic 等客户对 agent 基础设施的外部需求。一个很清晰的信号是，云厂商已经把 agent workload 当成下一代核心基础设施场景来建设。
🔗 链接
华为称基于 Ascend 950 的 Ascend supernode 将完整支持 DeepSeek V4
在 DeepSeek 发布 V4 预览的同时，华为表示基于 Ascend 950 AI 芯片的 supernode 将完整支持这代模型。这个组合很值得看，它意味着中国模型能力演进和国产算力栈之间的协同绑定正在进一步加深。
🔗 链接
中国启动为期六个月的网络广告整治，AI 滥用被列为重点打击对象
国家市场监管总局宣布开展为期六个月的网络广告专项整治，并明确把 AI 滥用纳入重点。这个动作说明监管关注点已经不只是“鼓励 AI 创新”，而是开始更具体地进入商业应用治理和平台责任落地阶段。
🔗 链接
EY 调研：23 国 1.8 万人中约 49% 过去半年用过 AI 辅助储蓄和投资决策
EY 的调研显示，consumer AI 已经相当深入金融决策场景，不再只是问答或内容生成工具。与此同时，这也会把信任、误导、合规和责任归属问题一起放大，后续大概率会吸引更多金融监管关注。
🔗 链接

📊 YouTube 3 条 | 播客 2 条 | 博客 5 条 | Techmeme 4 条 | 精选 14 条