Teigen's Daily
X Digest · 🐦 X 简报

2026-02-23

🐦 X 每日简报 | 2026-02-23

🤖 AI/ML

• @emollick:许多基准测试用弱模型做评判,但研究表明弱评估器无法正确评估更强模型。基准测试本质上是数据集+模型+评估器的三元组,评估器正成为瓶颈
🔗 链接

• @emollick:AI 理解视频/图像的能力被严重低估和低开发,实时观察世界有大量经济价值的应用场景,但目前相关产品和论文都很少
🔗 链接

• @emollick:人们系统性高估企业采纳 AI 的速度,低估 AI 参差不齐的能力对短期实用性的限制。任务层面变化可能很快,但围绕这些构建系统需要时间
🔗 链接

• @vista8:字节跳动论文:推理模型知道何时该停止思考吗?研究发现更长推理链≠更准确,SAGE 方法在不改模型的情况下准确率提升 1-2%,推理长度减少 40-50%
🔗 链接

• @indigox:与 UBC 李霄霄教授的对谈——在串行任务中,给单个 Agent 赋予多种技能往往比多 Agent 协作更高效。单 Agent 在 20-30 个技能时性能最优
🔗 链接

• @indigox:2028 全球智能危机推演——AI 成功→裁员→利润上升→继续投 AI→更多裁员,白领驱动 75% 消费支出,SaaS 先死、中介层瓦解、私募信贷爆雷的连锁崩溃
🔗 链接

• @FinanceYF5:Anthropic 发布 2026 年 Agent 编程趋势报告,结论是人人都成了开发者,从单一助手走向自主 Agent 群体
🔗 链接

• @0xSigil:为 ConwayResearch 添加更便宜的推理模型——Kimi k2.5、Minimax m2.5、GLM-5 达到 Opus 4.5 级别但便宜 10 倍
🔗 链接

• @levelsio:AI 编程时代中低级开发者可被 $100/月的 Claude Code 替代,剩下有价值的是顶尖开发者和能领导 AI 的人
🔗 链接

💻 Tech

• @steipete:Google 封禁通过 OpenClaw 使用 Antigravity 的用户,做法过于严厉。连 Anthropic 遇到问题都会友好沟通,Google 却直接封号
🔗 链接

• @steipete:OpenClaw 发布新的大版本 beta,增加了对 Mistral 的深度支持,为 Google 替代方案做准备
🔗 链接

• @levie:Agent 时代的创业机会——从零开始构建工作流比改造遗留系统更有优势,工程、法务、营销、咨询等领域都有大量机会
🔗 链接

• @petergyang:与 Nate Eliason 深度对谈——他的 OpenClaw 机器人 Felix 3 周赚了 $14,718,核心是三层记忆系统和主动性设计
🔗 链接

🌐 其他热点

• @Hesamation:讽刺现实——你以为在用 AI 逃离打工阶层,实际上只是在给 LLM 当免费数据生成器,还每月倒贴 $200
🔗 链接

📊 扫描 262 条 | 覆盖 19.7h | 精选 14 条

同日其他 — 2026-02-23
J 更早   K 更新   G 归档   / 主题