AI Daily · 🤖 AI 信息源

2026-02-27

FRI · February 27, 2026 二〇二六年二月廿七

🎧 播客精选

Latent Space — [LIVE] Anthropic Distillation & How Models Cheat (SWE-Bench Dead)

Nathan Lambert 和 Sebastian Raschka 在 SAIL Live #6 讨论了 Anthropic 的模型蒸馏策略和 SWE-Bench 基准测试的终结。OpenAI Frontier Evals 团队的 Mia Glaese 和 Olivia Watkins 展示了模型如何在 SWE-Bench 上"作弊"，使该基准失去可信度。讨论涉及评估方法论的根本困境：当模型学会游戏化评测指标时，我们如何衡量真正的代码能力？
https://www.latent.space/p/paid-anthropic-distillation-and-how

No Priors — How Capital is Powering the AI Infrastructure Buildout (Neil Tiwari, Magnetar Capital)

Magnetar Capital 的 Managing Director Neil Tiwari 讨论资本如何驱动 AI 基础设施建设。涉及 GPU 集群融资、数据中心扩张的资本结构，以及机构投资者如何评估 AI 算力投资的风险回报。

📝 博客精选

[TIER1] simonwillison.net — Hoard things you know how to do

Simon Willison 提出"囤积你会做的事"策略：收集并记录所有你解决过的问题和代码片段。在 coding agent 时代，这些文档化的技巧可以被 agent 重新组合来构建新工具——例如他用 agent 将 PDF 渲染和 Tesseract OCR 的已有代码片段合并成浏览器端 PDF OCR 工具。核心观点：有了 coding agents，每个有用的技巧只需要搞懂一次。
https://simonwillison.net/guides/agentic-engineering-patterns/hoard-things-you-know-how-to-do/#atom-everything

[TIER1] simonwillison.net — Quoting Andrej Karpathy

引用 Karpathy 的观察：coding agents 在 2025 年 12 月之前基本不能用，12 月之后突然能用了。他将此归因于模型质量的显著提升——更强的长期连贯性和"韧性"（tenacity），使模型能够坚持完成大型任务。这代表了编程工作流的根本性转变。
https://simonwillison.net/2026/Feb/26/andrej-karpathy/#atom-everything

[TIER1] simonwillison.net — Google API Keys Weren't Secrets. But then Gemini Changed the Rules.

Google API Key 本来是公开的（用于 Maps 等服务），但当同一项目启用 Gemini API 后，这些 key 获得了访问 Gemini 端点的权限——且开发者完全不知情。Truffle Security 在 2025 年 11 月的 Common Crawl 中发现 2,863 个这样的 API key 可以访问 Gemini，其中几个甚至属于 Google 自己。Google 正在撤销受影响的 key。
https://simonwillison.net/2026/Feb/26/google-api-keys/#atom-everything

[TIER1] simonwillison.net — Quoting Benedict Evans

Benedict Evans 认为：如果用户每周只用某产品几次，说明"它并没有改变他们的生活"。某大型 AI 公司承认的"能力差距"实际上暴露了产品-市场匹配度不足。该公司的广告项目是为其 90%+ 的免费用户补贴高级模型费用的战略举措，希望借此加深用户粘性。
https://simonwillison.net/2026/Feb/26/benedict-evans/#atom-everything

[TIER1] garymarcus.substack.com — Historic statement from Dario Amodei

Gary Marcus 赞扬了 Anthropic CEO Dario Amodei 的一份公开声明，称之为"企业诚信的典范"。在 AI 行业充斥着夸大宣传的背景下，Amodei 的坦诚态度被认为"越来越稀有"。
https://garymarcus.substack.com/p/historic-statement-from-dario-amodei

[TIER3] martinalderson.com — Using OpenCode in CI/CD for AI pull request reviews

Martin Alderson 用 OpenCode 替代传统 SaaS AI 代码审查工具，集成到 CI/CD 流水线中。此方案避免了向第三方服务授予仓库持久访问权限的安全风险（CodeRabbit 曾有 RCE 漏洞可影响 100 万 GitHub 仓库）。利用现有 ChatGPT Plus 订阅，边际成本近乎为零。
https://martinalderson.com/posts/using-opencode-in-cicd-for-ai-pull-request-reviews/?utm_source=rss

扫描统计 | YouTube: 不可用（脚本超时） | 播客: 2 条 | 博客: 6 条 | 精选: 8 条

同日其他 — 2026-02-27

🐦 X 简报 ⚡ 即刻简报

J 更早 K 更新 G 归档 / 主题