陶林伟 · Linwei Tao Apple Research — 内部分享

Agent 的五种用法

我是怎么
用 agent 的。

五个每天都在跑的真实场景 —— 不讲 benchmark、不讲框架。

§ 目录 001 / 014

五种形状

一套 agent,
五种工作形状

01每日 AI 简报ai-daily
02顺手写的小工具utilities
03一个晚上学一个新领域learn-fast
04最小想法 · 最小实验auto-research
05一个下午跑出 MCP 原型vibe-coding
§ Case 01 002 / 014
01

每日简报

早上一杯咖啡,
一份AI 日报

订阅 → 过滤 → 摘要 → 归档
做成一条每天自动跑的 pipeline。

§ Case 01 · 运行一次 003 / 014

每天早上,三分钟

# 2026-04-20 $ claude /ai-daily → 抓取 9 个来源 ...... 312 条 → 聚类 ................ 7 个主题 → 按新颖度排序 ........ done ▸ 主题 01 agent-RL post-training ▸ 主题 02 long-context serving ▸ 主题 03 on-device diffusion ... 还有 4 个 ✓ 写入 ~/ai-knowledge/daily/2026-04-20.md ✓ 更新 dashboard (+7 cards)

一条 cron、一个 skill、一个 knowledge base。
每天长出来,不用我操心。

§ Case 02 004 / 014
02

小工具

以前懒得写的工具,
现在都写了。

"手动做两次"
就已经值得做一个工具。

§ Case 02 · 三个例子 005 / 014

都是一个 session 写完的

从"手痒"到 pip install

gnvitop

多机 GPU 监控。
nvidia-smi 聚合成 JSON,
我的 agent 排队前会先读它。

bibtex-checker

投稿前校验 .bib,
对照 OpenAlex / Crossref 找死链和版本漂移。
一个典型 .bib 通常能捞出 20+ 处。

paper2poster

PDF → 打印就绪的会议 poster(HTML)。
省掉两天 InDesign 调版。

关键不是"这些工具多新"
而是决策规则反了:重复两次就值得做

§ Case 03 006 / 014
03

快速学习

一晚上
入门一个新领域

要 reading list 是弱 prompt;
learning trajectory 才是强 prompt。

§ Case 03 · prompt 的形状 007 / 014

关键在于 prompt 的形状

# 主题: agent RL > 排一条 10 步的学习路径。 > 每一步告诉我: > · 读哪一篇 > · 读完能做什么 > · 我应该能回答什么问题 > · 两句话的摘要 > >因果顺序排,不按年份。

给回来的路径会错。
但它是一个可以吵架的脚手架 —— 比我自己从零写快得多。

§ Case 04 008 / 014
04

auto-research

最小 claim,
最小实验

不是"自动写论文"。
是把"从直觉到第一条信号"
压到一个下午。

§ Case 04 · 回路 009 / 014

三个角色,一个下午

ideation → pilot → verdict

  1. Framing把想法写成一句"能被实验推翻"的话。
  2. PilotLab agent 写代码,挑一张空闲 GPU,跑一遍最小规模。
  3. VerdictReviewer agent 给结论:KILL / PIVOT / CONTINUE

最近一次 PIVOT 省掉了两周的 scaling。
Agent 是仪器,不是 collaborator —— 决策始终在我。

§ Case 05 010 / 014
05

vibe coding

一个下午
跑出一个 MCP

验证一个产品想法的最短路径 ——
让自己当第一个用户。

§ Case 05 · 一个下午 011 / 014

从"想要它"到"能跑"

四小时,
一个 week-one 用户。

14:00草稿:这个服务必须做的一个动作是什么?
14:30Agent 搭好 MCP tool 定义
15:30加上 auth、限流、一个极简 dashboard
17:00在 Claude Code 里用它做一个真实任务
次日发现我没再打开它 —— 最诚实的信号

"构建"几乎免费之后,真正的问题回到了该在的地方:
这个东西值不值得用。

§ 小结 012 / 014

变的不是
能力的上限 ——
是"试一下"的
成本

§ 共性 013 / 014

五个 case 共享的三件事

三个不变量

01
Agent 是仪器,
不是同事。

taste、framing、取舍仍然在我。
它做的是我懒得写的那部分。

02
赢在尝试的
吞吐量。

一上午跑五次烂的,
好过一周只跑一次"很仔细的"。

03
好 prompt 描述
的是形状。

"给我 10 篇"很弱;
"按因果顺序 + 前置依赖"永远更好。

§ 结束 014 / 014

Thank you

我们
试点东西吧。

欢迎提问、反驳,
或者丢一个你想让 agent 帮你做的问题。