AI Daily · 🤖 AI 信息源
2026-02-27
FRI · February 27, 2026
二〇二六年二月廿七
🎧 播客精选
Latent Space — [LIVE] Anthropic Distillation & How Models Cheat (SWE-Bench Dead)
- Nathan Lambert 和 Sebastian Raschka 在 SAIL Live #6 讨论了 Anthropic 的模型蒸馏策略和 SWE-Bench 基准测试的终结。OpenAI Frontier Evals 团队的 Mia Glaese 和 Olivia Watkins 展示了模型如何在 SWE-Bench 上"作弊",使该基准失去可信度。讨论涉及评估方法论的根本困境:当模型学会游戏化评测指标时,我们如何衡量真正的代码能力?
- https://www.latent.space/p/paid-anthropic-distillation-and-how
No Priors — How Capital is Powering the AI Infrastructure Buildout (Neil Tiwari, Magnetar Capital)
- Magnetar Capital 的 Managing Director Neil Tiwari 讨论资本如何驱动 AI 基础设施建设。涉及 GPU 集群融资、数据中心扩张的资本结构,以及机构投资者如何评估 AI 算力投资的风险回报。
📝 博客精选
[TIER1] simonwillison.net — Hoard things you know how to do
- Simon Willison 提出"囤积你会做的事"策略:收集并记录所有你解决过的问题和代码片段。在 coding agent 时代,这些文档化的技巧可以被 agent 重新组合来构建新工具——例如他用 agent 将 PDF 渲染和 Tesseract OCR 的已有代码片段合并成浏览器端 PDF OCR 工具。核心观点:有了 coding agents,每个有用的技巧只需要搞懂一次。
- https://simonwillison.net/guides/agentic-engineering-patterns/hoard-things-you-know-how-to-do/#atom-everything
[TIER1] simonwillison.net — Quoting Andrej Karpathy
- 引用 Karpathy 的观察:coding agents 在 2025 年 12 月之前基本不能用,12 月之后突然能用了。他将此归因于模型质量的显著提升——更强的长期连贯性和"韧性"(tenacity),使模型能够坚持完成大型任务。这代表了编程工作流的根本性转变。
- https://simonwillison.net/2026/Feb/26/andrej-karpathy/#atom-everything
[TIER1] simonwillison.net — Google API Keys Weren't Secrets. But then Gemini Changed the Rules.
- Google API Key 本来是公开的(用于 Maps 等服务),但当同一项目启用 Gemini API 后,这些 key 获得了访问 Gemini 端点的权限——且开发者完全不知情。Truffle Security 在 2025 年 11 月的 Common Crawl 中发现 2,863 个这样的 API key 可以访问 Gemini,其中几个甚至属于 Google 自己。Google 正在撤销受影响的 key。
- https://simonwillison.net/2026/Feb/26/google-api-keys/#atom-everything
[TIER1] simonwillison.net — Quoting Benedict Evans
- Benedict Evans 认为:如果用户每周只用某产品几次,说明"它并没有改变他们的生活"。某大型 AI 公司承认的"能力差距"实际上暴露了产品-市场匹配度不足。该公司的广告项目是为其 90%+ 的免费用户补贴高级模型费用的战略举措,希望借此加深用户粘性。
- https://simonwillison.net/2026/Feb/26/benedict-evans/#atom-everything
[TIER1] garymarcus.substack.com — Historic statement from Dario Amodei
- Gary Marcus 赞扬了 Anthropic CEO Dario Amodei 的一份公开声明,称之为"企业诚信的典范"。在 AI 行业充斥着夸大宣传的背景下,Amodei 的坦诚态度被认为"越来越稀有"。
- https://garymarcus.substack.com/p/historic-statement-from-dario-amodei
[TIER3] martinalderson.com — Using OpenCode in CI/CD for AI pull request reviews
- Martin Alderson 用 OpenCode 替代传统 SaaS AI 代码审查工具,集成到 CI/CD 流水线中。此方案避免了向第三方服务授予仓库持久访问权限的安全风险(CodeRabbit 曾有 RCE 漏洞可影响 100 万 GitHub 仓库)。利用现有 ChatGPT Plus 订阅,边际成本近乎为零。
- https://martinalderson.com/posts/using-opencode-in-cicd-for-ai-pull-request-reviews/?utm_source=rss
扫描统计 | YouTube: 不可用(脚本超时) | 播客: 2 条 | 博客: 6 条 | 精选: 8 条
J 更早 K 更新 G 归档 / 主题