Seminar · 2026.03.24

Linwei Tao

AI Agent in Practice

AI Agent for Research & Engineering

Web App · 顶刊文章 · 技术解剖 · 讨论
信息时代的蒸汽机时刻

claude — ~/CalibrationAGT

❯

今天要聊的两个项目

Live Demo

①

阿里嘎多 · 猫咪寄养 Web App

9:41

②

CalibrationAGT · 顶刊文章

今天讲什么

Agenda

🐱

Part 1 · Engineering

猫咪寄养 Web App — 用 Claude Code 在 research 间隙完成的生产级应用

约 5 分钟

🔬

Part 2 · Research

CalibrationAGT — 一篇顶刊文章是怎么用 AI Agent 完成的

约 20 分钟

⚙️

Part 3 · 技术解剖

AI Agent 到底怎么工作的？Tool use、Memory、Sub-agent

约 10 分钟

💭

Part 4 · 讨论

Paper 通货膨胀了，Senior 生产力 ×10 了——科研和工程会怎么变？

约 20 分钟

🎁

彩蛋

敬请期待

大家都听过这些

AI Coding Agents

大家可能都听过这些名字

GitHub Copilot

Cursor

Windsurf

Gemini CLI

Claude Code ✦

OpenClaw

Codex

O

OpenClaw

通用个人助理，非编程工具
强大的 memory 机制设计，烧 token
通过 WhatsApp / Telegram 对话

Claude Code ✦ 今天主讲

生态最完善：Skill / MCP / Hook
适合 vibe coding & vibe research

Cx

Codex GPT-5.4

Claude Code 的追赶者，模型能力在追
生态尚不足，Skill 和集成较少

核心差异：开发者 & 科研 Agent vs 个人生活助理

AI Agent
的本质

基础 · LLM 是怎么工作的

自回归生成

绝大多数 LLM 都是一次生成一个 token

类比 Markov chain：给定所有已有的 token，预测下一个——然后重复。模型从不"规划全局"，它只回答一个问题：下一个 token 是什么？

输入

The cat sat on the → mat

再输入

The cat sat on the mat → .

↑ 新生成的 token 追加到输入，模型再跑一次。如此往复，直到生成结束符。

Context window = 工作记忆

模型能看到的，就是这一整段序列。没有跨调用的状态。

输出 = 词表上的概率分布

每步输出 P(下一个 token | 所有已有 token)，temperature 控制分布的"锐度"。

AI Agent 的本质

Context Engineering

Agent 其实没有记忆——它只能看到 context

LLM 每次调用，它看到的全部内容：

[ 系统规则 ]
CLAUDE.md · 工具列表 · memory 文件
[ 对话历史 ]
你: "帮我分析..." → Claude: "正在读文件..."
[ 工具结果 ]
Read(main.py) → 500 行代码
[ 你的输入 ▶]
"现在帮我写测试"

                ↓
                // 全部拼在一起，送入 LLM
                output = LLM(context)  // 预测下一个 token
            

Agent 没有记忆——它只能看到 context 里有什么

AI Agent 的本质

Context Engineering

Context 窗口在变大，但还不够

Context Window 进化

模型发布

GPT-4o

128K

2024.05

Claude Sonnet 4

200K

2025.07

GPT-5.2

400K

2025.12

GPT-5.4

1M

2026.03

Claude Sonnet 4.6

1M

2026.03

但你的项目有多大？

一篇顶刊文章 ~8K tokens ✓

一个 PhD thesis ~100K tokens ✓

CalibrationAGT 代码库 ~400K tokens ⚠

中等规模生产代码库 ~2–5M tokens ✗

你的使用习惯 + 环境配置 + 文档根本装不下 ✗

AI Agent 的本质

Context Engineering

Agent 的核心工作：决定喂什么

Agent 做的事：

每次调用 LLM 时，决定把哪些信息塞进 context——
读哪些文件、记忆哪些偏好、丢掉哪些历史

📂

读哪些文件

🧠

记忆哪些偏好

🗑️

丢掉哪些历史

今天的核心论点

生产力正在被
重新定价

这是效率重构，而非工具升级

01

Part One · Engineering

猫咪寄养
Web App

从零到生产，由 Claude Code 全程构建

Engineering · 背景

Side Project

宠物寄养管理系统 🐱

我们原来完全没有系统，记录全靠脑子和纸，非常乱。
research之余的小项目

📋 原来

笔记本、微信群消息、记在脑子里——入住/退房时间经常出错

✅ 现在

寄养管理、上门喂养、预约链接、电子签名、收入统计，功能完整覆盖

Engineering · 系统展示

Desktop

阿里嘎多 · 猫咪寄养 Web App

taolinwei.com/cat-boarding-system

Engineering · 构建过程

Claude Code in Action

传统网页开发流程

拆解需求需求文档
功能拆解 + 排期

→

数据库设计 schema.sql
手写迁移脚本

→

网页UI设计线框图 → 组件
手写 HTML + CSS

→

前端开发纯 HTML + ES Modules
无框架，无构建

→

调试迭代 Stack Overflow + 文档
手动 debug

→

生产上线真实用户
真实业务

Claude Code 开发流程 ✦

App 开发

你：我要开发一个猫咪寄养的 app。

→

✓ schema.sql 已生成

✓ HTML + CSS 已写好

✓ 报错已自动修复

✓ 可以上线了

Engineering · 影响

这意味着什么

🏢

一人公司

一个人执行以前需要整个工程团队才能完成的工作

Pieter Levels — 0 名员工 · $3.1M ARR · 70+ 产品
Lovable — 1 人创立 · 8 个月达 $100M ARR

🔬

研究员的工具箱

缺什么工具就造什么——实验管理、可视化、自动化脚本

Komodo Health — 6–8 周分析缩至数小时
Patrick Mineault — NeuroAI 研究员，用 Claude Code 写分析流水线

💡

创业 MVP

验证一个 idea 从数月缩至数天，想法立刻触碰真实用户

Indragie — macOS app · 19k/20k 行由 Claude 写
发票管理系统 — 1 天构建 · API 成本 $3.65

🛠️

生活需求自给自足

日历同步、账单整理、私人 dashboard——自己的需求自己解决

Home Assistant 社区 — 用 Claude Code 从零搭智能家居
非程序员 — Claude Opus 4 + Cursor · 0 行代码写出理财 app

✦

执行门槛大幅降低——跨领域不再是瓶颈。你的上限，是你能想到多少值得做的事。

02

Part Two · Research

CalibrationAGT

标注歧义下的置信度校准

Research · 动机

CalibrationAGT

这篇文章怎么来的？

01

Conformal Prediction × 标注歧义

当 ground truth 本身模糊（多个 annotator 不同意），CP 的覆盖率保证还成立吗？

02

Calibration 在这个 setting 下根本没人做过

标注歧义 + calibration——连"该怎么评估"都没有定论

03

Pivot → CalibrationAGT

Calibration 在这个 setting 下同样值得系统研究。

Research · 工作流

每个环节都是文字

拆解 Research in AI —— 每个环节都是文字

📚

文献调研 — 论文、摘要、笔记 · 全是文字

↓

💡

研究方案 — 假设、设计思路、理由 · 文字

↓

🔬

实验脚本 — 代码就是文字

↓

⚠️

报错 & 实验结果 — Stack trace、CSV、日志 · 文字，且有即时反馈

↓

📊

画图 — matplotlib / seaborn 脚本 · 还是文字

↓

📄

论文（LaTeX）— 一切汇总——还是文字

Research · 背景

LLM → Agent

从 LLM 到 Agent

以前 · ChatGPT

# 报错 → 复制，粘贴，问，再粘回来
Error: KeyError: 'ece_true'
↓  手动 copy → paste → 问 ChatGPT
Fix: metrics[key] = ece_fn(logits, labels)

你是中间人，手动搬运信息

现在 · Agent

# 报错 → Agent 全程自动处理
Error: KeyError: 'ece_true'
↓  Agent 读文件、定位原因、改好、跑测试
✓ All tests passed. Fix pushed.

你负责方向，Agent 执行闭环
→ 你是 Director，不是中间人

Research · Claude Code in Action

实际交互

claude — ~/CalibrationAGT

❯

Research · 工具链

Skills & Skill-Creator

Skills — 给 Agent 装上专属工作流

什么是 Skill？

一个 Markdown 文件，描述 Agent 应当如何完成某类任务。触发后，Agent 按照 skill 的指令执行完整流程。

什么是 Skill-Creator？

一个专门用来写 skill 的 skill。描述你的需求，Agent 自动生成结构化的工作流规范并保存。

使用场景

文献调研、论文写作、实验管理、代码审查、数据预处理——任何重复的流程都可以封装成 skill

Skills = 可复用的 Agent 工作流，一次定义，反复调用

举一反三：/paper-review 审稿工作流 · /experiment-log 实验记录 · /debug-cluster GPU 集群调试 · /weekly-report 自动周报

claude — ~/research

❯

Research · Skill 实战

ai-research-paper

Pipeline

🔧

Phase 0 · Setup

venue · topic · compute → config.md

↓

↻ LOOP

Idea Loop · Phase 1–5

📚

Literature Review

ArXiv MCP · WebSearch · gap 定位

💡

Idea Generation

生成 4 个候选 idea

🤖

6-Agent Debate ← subagents

Critic · Champion · Devil's Advocate…

🚪

AC Gate

REVISE → loop · REJECT → drop · ACCEPT ↓

🔬

Pilot Experiment

快速验证可行性 · PASS 才继续

↓ ACCEPT

⚡

Full Experiments · GPU Auto

SSH · gnvitop 调度 · 自主运行

📊

6-Agent Result Debate ← subagents

结果解读 · Contribution 定位

✍️

Paper Writing + Figures

seaborn 图表 · 并行写各节

📱

Review ← subagent → Submit

修正 · Telegram 通知

claude — ~/CalibrationAGT

❯

Research · 更进一步

抛砖引玉

/ai-research-paper 只是起点——
任何重复工作流都可以封装成 skill。

更自动化的 Research Pipeline

AutoResearch · SibylSystem

github.com/Sibyl-Research-Team/
AutoResearch-SibylSystem

Star

…

扫码访问

Research · 案例

LUMI-lab · Cell 2026

AI Agent × 湿实验室：自驱动分子发现

图1：LUMI-lab 系统总览——Foundation Model + 主动学习 + 机器人实验室 → 合成 1,700 个 LNP → 小鼠肺部基因编辑效率 20.3%

Research · 更多示例

Skill 实战

/brainstorm — ~/CalibrationAGT

❯

/frontend-slides — ~/talks

❯

Research · 使用技巧

Tips

Claude Code 使用技巧

1

用 tmux 跑在 server 上——对话 session 不会中断

VS Code 插件无法保证 session 持续

2

VS Code 插件适合即时性任务——比如做 PPT，很快就完成

短平快、当场看结果的任务首选

3

Terminal 选 Ghostty——Anthropic 官方推荐

Claude Code 还很早期，Ghostty bug 最少

4

Chrome 里的 Claude 插件值得一试——可直接操控浏览器界面

适配比本地 app 好

Research · 使用技巧

定价

Claude Code

Pro $20 / 月

轻度使用——约等于每天 4 小时工作强度

Max · 5× $100 / 月

基本够用——日常 research + project 足够

Max · 20× $200 / 月

适合同时跑 5–10 个项目

Codex (OpenAI)

ChatGPT Plus $20 / 月

有限次 Codex 使用额度

ChatGPT Pro $200 / 月

并行任务，有 5h 滚动限额 + 每周上限

03

Part Three · 技术解剖

技术解剖

Agent 的運作原理是什麼？

参考李宏毅（Hung-yi Lee）机器学习课程 2025 · NTU

技术 · Sub-agent

Context Engineering

Sub-agent：解决 Context 瓶颈

任务太大，一个 context 放不下怎么办？
主 agent spawn 多个 sub-agent，并行处理子任务，只把摘要结果返回主 context。

主 Agent

→ spawn

Sub A：读论文 A

→ spawn

Sub B：读论文 B

← 只返回摘要，不返回全文

Sub-agent 有精简的 system prompt，专注单一子任务
多个 sub-agent 并行跑——速度更快
Context Window 里只有任务关键信息，推理更准确

技术 · Context 压缩

来自李宏毅课程

Context 超出上限——怎么压缩？(1/2)

为什么 Context 会涨这么快？

工具的输出（tool observations）占了 Context 的 84%
模型自己说的话只占 ~10%

压缩方式 1/2

1

Observation Masking

把工具输出直接换成一句话：
「这里曾经有个工具的输出」

看起来很粗暴——但实验表明效果和 LLM 摘要差不多

技术 · Context 压缩

来自李宏毅课程

Context 超出上限——怎么压缩？(2/2)

2

LLM Summarization

历史对话太长 → 用 LLM 压成摘要
Claude Code 内置了这个 compaction 机制

Sub-agent = 自动压缩

主 Agent spawn Sub-agent → Sub-agent 积累自己的 Context

↓ sub-agent return

Sub-agent 的整段对话消失，只留 return 的一句话

语言模型不喜欢压缩自己的记忆
所以压缩通常是 Agent 框架强制执行的

技术 · Tool Use 机制

Function Calling

Agent 怎么"动手"：Tool Use 循环

Agent 收到任务

→

发给 LLM（含工具列表）

→

[tool_use] Read("main.py")

↓

在电脑上执行 Read("main.py")

→

返回文件内容

→

加入 context，再次调用 LLM

↓ 循环直到任务完成

[tool_use] Write("fix.py", ...)

→

写入文件

→

"done" [END]

强大的原因：shell 命令本质上是文字，而文字正是 LLM 的强项

技术 · 记忆系统

Memory Architecture

System Prompt 里装着 Agent 的"灵魂"

CLAUDE.md：项目规则、代码约定、注意事项
memory/*.md：用户偏好、历史决策、长期记忆
skills/*.md：可复用的工作流（技能库）
工具列表：Read、Write、Bash、WebSearch……
每次调用 LLM 时，这些全部塞进 system prompt

# CLAUDE.md 示例
## Rules
- 用中文回复
- 运行实验前先检查 GPU 占用
- 不要 commit 未测试的代码

## Project Context
顶刊投稿，ddl: 5/31
                

一次对话可能塞入 4000+ tokens 的系统信息——
这就是 agent 能持续"记住"项目状态的原因

技术 · 持久化

Hooks · Cron · Memory

🪝

Hooks

工具调用前后执行 shell 命令——验证、记录、发通知

# settings.json
hooks:
  PostToolUse:
    - command: "notify.sh"
      match: Bash

⏱

Cron

定时调度 agent——监控实验、追踪论文、发送日报

# 每 30 分钟
CronCreate(
  "*/30 * * * *",
  "check experiments"
)

🧠

Auto-Memory

Agent 自动写入结构化记忆文件，跨会话永久保留

# ~/.claude/projects/
MEMORY.md       # 索引
memory/
  user.md       # 用户偏好
  project.md    # 当前目标

✦

Agent 成为持久的队友——跨会话记住上下文、对事件自动响应、自行安排检查点。

04

Part Four · 讨论

AI Agent
改变了什么？

科研 · 工程 · 人的价值

讨论 · 新 Mindset

Agent 时代的工作方式

工作，是对结果负责
不是对过程负责，不是对代码行数负责，不是对"我自己写的"负责

Andrej Karpathy

"Vibe coding — fully give in to the vibes, embrace exponentials, and forget that the code even exists."

沉浸进去，拥抱指数级，忘掉代码本身的存在

X · Feb 2025 → now: "agentic engineering"

Sam Altman · OpenAI

"We may see the first AI agents join the workforce and materially change the output of companies."

AI agent 将首次进入劳动力市场，实质性地改变企业产出

Blog · Jan 2025

Dario Amodei · Anthropic

"AI could soon compress decades of scientific progress into just a few years."

AI 或将把数十年的科学进步压缩进短短几年

Machines of Loving Grace · Oct 2024

讨论 · 科研

Research

论文通货膨胀时代

Agent 让人人都能快速产出论文——arxiv 每天几百篇，reviewers 已经看不过来了

arxiv 年提交量 · arxiv.org/stats（2025年已超 2.8万篇/月）

arXiv new submissions per year by subject area (1991–2021)

把 baseline + 1% accuracy 写成 paper 的时代，可能快结束了
"发了多少篇" 这个 metric 会越来越没意义

讨论 · 科研

Research

Evaluation System 会怎么变？

从数量转向 影响力——citation、real-world adoption
更看重提出真正的新问题，而不是解决已知 benchmark
Reproducibility 和 open-source 会变得更重要——Agent 可以轻松根据你的文档复现实验，这或许会成为强制要求

也许：能不能问出好问题，才是真正的核心竞争力

讨论 · 科研

Agents4Science 2025

第一个 AI 全程主导的学术会议

Stanford · Oct 2025 · agents4science.stanford.edu

Agents4Science 2025 conference statistics figure

314 篇投稿 · 48 篇录用（录取率 ~16%，与顶会相当）
AI 全程担任第一作者 + 审稿人
被录用的论文：人类在 hypothesis 和实验设计介入更多
AI 审稿：一致性高，但洞察力不如人类
约 44% 的投稿存在幻觉引用

AI 能产出论文——但提出好问题仍然需要人

讨论 · AI Agent 的冲击

学术科研

AI Agent 会替代科研工作者吗？

参考：李宏毅 AI Agent (3/3) · NTU 2026

Andrew Hall (Stanford) · 「100x Research Assistant」

Cost: PhD student 16h $1040 vs Claude Code 1h $10

博士生：16h / $1,040 vs Claude Code：1h / $10（104× cheaper）

但：人类还没有被替代

AI 的 idea 表面新颖，执行后并不比人类好
被接受的论文：人类在 idea 和实验设计介入更多
AI 擅长执行，但"做什么"仍需人来判断

讨论 · 工程

Engineering

Senior 工程师生产力 ×10，还要招新人干嘛？

管人 vs 管 Agent

新人：带、讲、review
Agent：听话、随时待命、不要工资
1 人 + agent = 5 人团队
Junior 的重复工作，agent 全包
headcount 逻辑正在被重新定价

那 junior / 新人还有机会吗？

有——路变窄了，更早找到不可替代的那部分
系统判断 · 用户沟通 · 定义真正需求
能驾驭 agent = 新时代的 10× engineer
独立做完整系统：5 年 → 1 年

这不是悲观——是新的起点

讨论 · 工程

Engineering

Anthropic 劳动力市场研究（2026）

程序员岗位：AI 覆盖 75% 的工作任务
受影响岗位的平均薪资比未受影响岗位高 47%
AI 高度覆盖的岗位，22–25 岁就业率下降 13%（Stanford, 2025）
全球劳动力总人数：33 亿
受波及人数：11 亿——约占全球劳动力的 1/3

讨论 · 工程

Agent Harness

Harness 比模型更重要

Agent Harness = 包裹在模型外的脚手架：工具定义、Prompt、工作流、上下文管理。
同一个模型，换个 harness，结果天壤之别。

Anthropic · CORE-Bench

42% → 78%

同一模型（Claude Opus 4.5），从通用 scaffold 换成 Claude Code harness。涨了 36 分。

LangChain · Terminal Bench 2.0

52.8% → 66.5%

模型没动，只加了自验证循环和上下文工程。排名 Top 30 → Top 5。

OpenAI · Codex Harness

0 行人工代码

3 名工程师，5 个月，100 万行生产代码，全由 Codex agent 写。只用了正常开发时间的 1/10。

💡

核心机制 — Progressive Disclosure：每一步只让模型看到它需要的信息，其余全部隐藏。这是大多数 harness 提升的根本原因。

讨论 · 工程

Agent Harness

Harness Agent 的三个原则

工具描述要精确

明确告诉 agent 什么时候不该调用

某工程师接了 12 个工具，agent 老是反复调同一个接口。换成 4 个描述精确的工具后，无效调用减少 40%。

工具越少越好

一条配置规则，胜过新加一个工具

Vercel 的 agent 工具箱很大，agent 经常不知道该用哪个。删掉工具库，改成直接跑 bash 命令——成功率 100%，速度快了 3.5 倍。

定期做减法

为旧模型搭的脚手架，可能正在拖慢新模型

Manus 6 个月重写 5 次，越写越精简。一个工程师周四删掉了整套记忆系统，周五响应延迟就降了 2.3 秒。

"模型越强，我们越应该让开，别挡着它。" — Peak Ji，Manus 首席科学家

🎁 彩蛋

gnvitop
全局 GPU 监控

做 research 顺带开发的小工具——一行命令监控所有实验室 GPU

🎁 Bonus

好物推荐

gnvitop — 全局 GPU 监控

实时监控所有服务器的 GPU 状态——
看看有没有闲置的卡，也看看自己是不是用了太多卡。

pip install gnvitop  # 安装

gnvitop              # 使用

自动读 ~/.ssh/config，SSH 进所有服务器
实时 Web dashboard，显示全部 GPU 状态
支持 ProxyJump 跳板机
当前用户进程蓝色高亮

Thanks

Q & A

github.com/Linwei94/talks

AI Agent for Research & Engineering

大家可能都听过这些名字

AI Agent的本质

绝大多数 LLM 都是一次生成一个 token

Agent 其实没有记忆——它只能看到 context

Context 窗口在变大，但还不够

Agent 的核心工作：决定喂什么

生产力正在被重新定价

宠物寄养管理系统 🐱

阿里嘎多 · 猫咪寄养 Web App

这篇文章怎么来的？

拆解 Research in AI —— 每个环节都是文字

从 LLM 到 Agent

Skills — 给 Agent 装上专属工作流

AI Agent × 湿实验室：自驱动分子发现

Claude Code 使用技巧

定价

Sub-agent：解决 Context 瓶颈

Context 超出上限——怎么压缩？(1/2)

Context 超出上限——怎么压缩？(2/2)

Agent 怎么"动手"：Tool Use 循环

System Prompt 里装着 Agent 的"灵魂"

论文通货膨胀时代

Evaluation System 会怎么变？

第一个 AI 全程主导的学术会议

AI Agent 会替代科研工作者吗？

Senior 工程师生产力 ×10，还要招新人干嘛？

Anthropic 劳动力市场研究（2026）

Harness 比模型更重要

Harness Agent 的三个原则

gnvitop — 全局 GPU 监控

Q & A

AI Agent
的本质

生产力正在被
重新定价