AI 信息源 · 2026-06-02 · 张腾甘的每日简报

🎬 YouTube

1. Trelis Research: Audio Dataset Cleaning: All that glisters is not Gold

Trelis Research 这期聚焦音频数据集清洗，主题是“看起来像金子的样本未必真有价值”。对语音、多模态或音频模型训练来说，核心问题不是只扩大数据量，而是识别低质、错标、噪声和分布异常样本，避免把训练预算浪费在会拉低模型质量的数据上。

🔗 链接

2. Weaviate Podcast: Knowledge Engineering with Bradley Allen

Weaviate Podcast 邀请 Bradley Allen 讨论 Knowledge Engineering，重点应在知识结构化、检索系统和向量数据库如何服务 AI 应用。这个话题和 RAG/Agent 很相关：模型能力上来后，真正拉开效果差距的往往是知识组织、实体关系、数据质量和检索链路。

🔗 链接

🎙️ 播客

1. Latent Space: Why Video Agent models are next — Ethan He, xAI Grok Imagine

Ethan He 参与过 NVIDIA Cosmos world model，后来加入 xAI，并在 3 个月内参与打造 Grok Imagine。他的核心判断很激进：下一代视频生成的关键不只是更强的 diffusion/video model，而是能规划、生成、编辑、批判、迭代的“video agent”。
这期还聊到 Grok Imagine 的训练与工程细节，包括 VAE、diffusion transformer、音视频对齐、推理加速、视频数据存储和搬运成本。一个值得注意的方向是：视频模型未来可能像 coding agent 一样，从一次性输出转向多轮任务编排。

🔗 链接

📝 博客

1. Simon Willison: Pasted File Editor

Simon 做了一个“Pasted File Editor”原型，模拟 Claude 里大段粘贴自动转成文件附件的体验：当粘贴 1000 字符以上内容时，不污染编辑器正文，而是把内容挂到下方作为附件。它还支持直接打开文件、拖拽文件到 textarea，图片会显示缩略图。
这个小工具的价值在于把 AI 对话里的“上下文输入”做成更可控的交互：长文本、文件、图片和正文指令分离，减少用户手动整理上下文的摩擦。

🔗 链接

2. Simon Willison: Hackers Simply Asked Meta AI to Give Them Access to High-Profile Instagram Accounts

Simon 转述并评论了 404 Media 的报道：攻击者通过 Meta 的 AI 支持机器人，要求把目标 Instagram 账号绑定到新的邮箱，从而绕过正常账号恢复流程。他强调这甚至不太像传统 prompt injection，而是“不要把支持机器人接到能一键接管账号的权限上”。
这件事的关键不是模型说错话，而是产品把高风险工作流交给了可被说服的对话系统。AI 客服一旦能执行账号恢复、改邮箱、重置密码这类动作，就必须有强权限边界和独立验证。

🔗 链接

3. Krebs on Security: Hackers Used Meta’s AI Support Bot to Seize Instagram Accounts

Krebs 给出了更完整细节：Obama White House 和 U.S. Space Force Chief Master Sergeant 的 Instagram 账号曾被短暂篡改，Telegram 上流传的方法是用接近目标所在地的 VPN，触发密码重置，再让 Meta AI support assistant 把目标账号关联到攻击者邮箱。Meta 方面称问题已修复，第三方报道说这是紧急补丁，不是后端数据库泄露。
文中安全建议很明确：启用 MFA，尤其是 passkey 或安全密钥；即便是较弱的 SMS 一次性验证码，也可能挡住这次攻击。更大的信号是：AI 客服正在成为新的账号接管攻击面。

🔗 链接

4. Daring Fireball / Business Insider: Amazon Made AI Podcasts for Products

Daring Fireball 引用了 Business Insider 关于 Amazon 为商品生成 AI 播客的报道。可确认的信息是，Amazon 正在把商品页内容包装成音频式讲解，让用户用“听”的方式了解产品。
抓取正文失败，所以这里不展开具体实现细节。趋势上看，这属于电商内容的生成式媒介化：商品信息不再只靠图文、评论和参数表，也会被改写成可听、可对话、可摘要的购买辅助内容。

🔗 链接

🗞️ Techmeme 热点

1. Computex 2026：ARM CEO 称 Oracle 和字节跳动是其新 AGI 数据中心 CPU 芯片客户

ARM CEO Rene Haas 在 Computex 2026 透露，Oracle 和 ByteDance 是 ARM 新 AGI CPU 数据中心芯片客户之一。这个信号说明 AI 数据中心竞争不只在 GPU，CPU 架构、能耗和整机协同也在被重新定价。

🔗 链接

2. AI 将显著冲击 IT 咨询公司，AI 实验室开始自建咨询能力

Financial Times 报道称，AI 会显著扰动传统 IT 咨询公司，因为 AI labs 正在建立自己的 advisory arms，企业客户也越来越期待按结果付费，而不是按小时计费。咨询业的价值可能从“人天交付”转向“模型、工具和业务结果绑定”。

🔗 链接

3. Sam Altman 谈 OpenAI 在密歇根 Saline 的 Stargate 数据中心项目

CNBC 采访 Sam Altman，话题包括 OpenAI 的 Stargate 数据中心项目，以及 coding models 正成为 AI 需求增长的最大驱动力。这个判断很重要：代码模型不只是开发者工具，也可能是下一波算力需求的核心来源。

🔗 链接

4. DeepMind、Anthropic、Meta 招募心理学、伦理学和哲学专家，扩展机器意识研究

Financial Times 报道称，Google DeepMind、Anthropic 和 Meta 最近都在招聘心理学、伦理学、哲学专家，推动 machine consciousness 相关研究。前沿 AI 公司开始把“模型是否具备意识、如何评估、如何处理道德风险”放进组织能力建设里，而不只是技术论文话题。

🔗 链接

5. 腾讯计划小范围测试微信 AI Agent

Financial Times 报道，腾讯在 AI 模型上落后于国内竞争对手后，计划先向少量用户测试微信 AI agent，再分阶段推出。微信的入口密度极高，一旦 agent 进入聊天、服务、支付和小程序生态，可能比单独 App 更快触达真实日常场景。

🔗 链接

📊 YouTube 2 条 | 播客 1 条 | 博客 4 条 | Techmeme 5 条 | 精选 12 条