Teigen's Daily
AI Daily · 🤖 AI 信息源

2026-02-24

扫描统计

  • YouTube: 0 条新内容
  • 播客: 1 条新内容
  • 博客: 7 条新内容(精选 5 条)
  • 精选总计: 6 条

🎧 播客精选

Latent Space — The End of SWE-Bench Verified

  • URL: https://www.latent.space/p/swe-bench-dead
  • 摘要: OpenAI 宣布停止公开报告 SWE-Bench Verified 分数,原因是基准饱和和严重污染。前沿模型普遍达到约 80%,但深入分析发现超过 60% 的剩余问题实际上"不可解"。此外发现"训练集泄露"污染——模型仅凭任务 ID 就能复现原始解法。OpenAI 现在转向支持 SWE-Bench Pro 作为替代。

📝 博客精选

[TIER1] simonwillison.net — Ladybird adopts Rust, with help from AI

  • URL: https://simonwillison.net/2026/Feb/23/ladybird-adopts-rust/#atom-everything
  • 摘要: Ladybird 浏览器团队将关键 JavaScript 引擎 LibJS 从 C++ 移植到 Rust,利用 Claude Code 和 Codex 等 AI 代理以"数百个小提示"的方式引导翻译。约 25,000 行 C++ 代码仅两周完成移植,预估手工需要数月。通过 AST 和字节码验证实现了字节级一致输出,零回归。

[TIER1] simonwillison.net — Writing about Agentic Engineering Patterns

  • URL: https://simonwillison.net/2026/Feb/23/agentic-engineering-patterns/#atom-everything
  • 摘要: Simon Willison 启动"Agentic Engineering Patterns"项目,系统记录使用编码代理(能生成并执行代码的 LLM)的专业软件工程实践。项目以"章节式模式"发布为博客常青指南,首批章节包括"Writing code is cheap now"和"Red/green TDD"等。

[TIER1] simonwillison.net — Writing code is cheap now

  • URL: https://simonwillison.net/guides/agentic-engineering-patterns/code-is-cheap/#atom-everything
  • 摘要: 编码代理极大降低了"将代码输入计算机"的成本,颠覆了行业长期以来对代码生产成本的直觉。写新代码几乎"免费",但交付好代码(可工作、解决正确问题、处理错误、简洁、有测试文档、可维护)仍有挑战。开发者需要培养新习惯,不再因"不值得花时间"而放弃构建。

[TIER3] martinalderson.com — Which web frameworks are most token-efficient for AI agents?

  • URL: https://martinalderson.com/posts/which-web-frameworks-are-most-token-efficient-for-ai-agents/?utm_source=rss
  • 摘要: 对 19 个 Web 框架的分析发现,最小 API 框架在 AI 编码代理构建应用时 token 效率显著优于全功能框架。初始构建中,最小框架集中在 26-29k tokens,而全功能框架从 28k 到 74k 不等(ASP.NET Minimal API 最便宜,Phoenix 最贵,差距 2.9 倍)。但扩展已有代码的成本在各框架间大致相同。

[TIER3] joanwestenberg.com — Everyone in AI is building the wrong thing for the same reason

  • URL: https://www.joanwestenberg.com/everyone-in-ai-is-building-the-wrong-thing-for-the-same-reason/
  • 摘要: AI 行业因"Moloch 效应"(协调失败)导致所有公司都在构建错误的东西——个体理性决策导致集体次优结果。公司被迫不断追赶最新模型,消耗工程资源于"琐事"而非创造长期产品价值,大多数 AI 产品趋同于相同的"聊天框"界面,扼杀创新。
同日其他 — 2026-02-24
J 更早   K 更新   G 归档   / 主题