X 简报 · 2026-02-23 · 张腾甘的每日简报

🐦 X 每日简报 | 2026-02-23

🤖 AI/ML

• @emollick：许多基准测试用弱模型做评判，但研究表明弱评估器无法正确评估更强模型。基准测试本质上是数据集+模型+评估器的三元组，评估器正成为瓶颈
🔗 链接

• @emollick：AI 理解视频/图像的能力被严重低估和低开发，实时观察世界有大量经济价值的应用场景，但目前相关产品和论文都很少
🔗 链接

• @emollick：人们系统性高估企业采纳 AI 的速度，低估 AI 参差不齐的能力对短期实用性的限制。任务层面变化可能很快，但围绕这些构建系统需要时间
🔗 链接

• @vista8：字节跳动论文：推理模型知道何时该停止思考吗？研究发现更长推理链≠更准确，SAGE 方法在不改模型的情况下准确率提升 1-2%，推理长度减少 40-50%
🔗 链接

• @indigox：与 UBC 李霄霄教授的对谈——在串行任务中，给单个 Agent 赋予多种技能往往比多 Agent 协作更高效。单 Agent 在 20-30 个技能时性能最优
🔗 链接

• @indigox：2028 全球智能危机推演——AI 成功→裁员→利润上升→继续投 AI→更多裁员，白领驱动 75% 消费支出，SaaS 先死、中介层瓦解、私募信贷爆雷的连锁崩溃
🔗 链接

• @FinanceYF5：Anthropic 发布 2026 年 Agent 编程趋势报告，结论是人人都成了开发者，从单一助手走向自主 Agent 群体
🔗 链接

• @0xSigil：为 ConwayResearch 添加更便宜的推理模型——Kimi k2.5、Minimax m2.5、GLM-5 达到 Opus 4.5 级别但便宜 10 倍
🔗 链接

• @levelsio：AI 编程时代中低级开发者可被 $100/月的 Claude Code 替代，剩下有价值的是顶尖开发者和能领导 AI 的人
🔗 链接

💻 Tech

• @steipete：Google 封禁通过 OpenClaw 使用 Antigravity 的用户，做法过于严厉。连 Anthropic 遇到问题都会友好沟通，Google 却直接封号
🔗 链接

• @steipete：OpenClaw 发布新的大版本 beta，增加了对 Mistral 的深度支持，为 Google 替代方案做准备
🔗 链接

• @levie：Agent 时代的创业机会——从零开始构建工作流比改造遗留系统更有优势，工程、法务、营销、咨询等领域都有大量机会
🔗 链接

• @petergyang：与 Nate Eliason 深度对谈——他的 OpenClaw 机器人 Felix 3 周赚了 $14,718，核心是三层记忆系统和主动性设计
🔗 链接

🌐 其他热点

• @Hesamation：讽刺现实——你以为在用 AI 逃离打工阶层，实际上只是在给 LLM 当免费数据生成器，还每月倒贴 $200
🔗 链接

📊 扫描 262 条 | 覆盖 19.7h | 精选 14 条