Lab Seminar · 2026.03.20
Linwei Tao
AI Agent in Practice

AI Agent for Research & Engineering

Web App · 顶刊文章 · 技术解剖 · 讨论
信息时代的蒸汽机时刻

claude — ~/CalibrationAGT
今天要聊的两个项目
Live Demo
阿里嘎多 · 猫咪寄养 Web App
9:41
CalibrationAGT · 顶刊文章
今天讲什么
Agenda
🐱
Part 1 · Engineering
猫咪寄养 Web App — 用 Claude Code 在 research 间隙完成的生产级应用
约 5 分钟
🔬
Part 2 · Research
CalibrationAGT — 一篇顶刊文章是怎么用 AI Agent 完成的
约 20 分钟
⚙️
Part 3 · 技术解剖
AI Agent 到底怎么工作的?Tool use、Memory、Sub-agent
约 10 分钟
💭
Part 4 · 讨论
Paper 通货膨胀了,Senior 生产力 ×10 了——科研和工程会怎么变?
约 20 分钟
🎁
彩蛋
敬请期待
大家都听过这些
AI Coding Agents

大家可能都听过这些名字

GitHub Copilot
Cursor
Windsurf
Gemini CLI
Claude Code ✦
OpenClaw
Codex
O
OpenClaw
  • 通用个人助理,非编程工具
  • 强大的 memory 机制设计,烧 token
  • 通过 WhatsApp / Telegram 对话
Claude Code ✦ 今天主讲
  • 生态最完善:Skill / MCP / Hook
  • 适合 vibe coding & vibe research
Cx
Codex GPT-5.4
  • Claude Code 的追赶者,模型能力在追
  • 生态尚不足,Skill 和集成较少
核心差异:开发者 & 科研 Agent vs 个人生活助理

AI Agent
本质

AI Agent 的本质
Context Engineering

Agent 其实没有记忆——它只能看到 context

LLM 每次调用,它看到的全部内容:

[ 系统规则 ]
CLAUDE.md · 工具列表 · memory 文件
[ 对话历史 ]
你: "帮我分析..." → Claude: "正在读文件..."
[ 工具结果 ]
Read(main.py) → 500 行代码
[ 你的输入 ▶]
"现在帮我写测试"
// 全部拼在一起,送入 LLM output = LLM(context)  // 预测下一个 token

Agent 没有记忆——它只能看到 context 里有什么

AI Agent 的本质
Context Engineering

Context 窗口在变大,但还不够

Context Window 进化

模型发布
GPT-4o
128K
2024.05
Claude Sonnet 4
200K
2025.07
GPT-5.2
400K
2025.12
GPT-5.4
1M
2026.03
Claude Sonnet 4.6
1M
2026.03

但你的项目有多大?

一篇顶刊文章 ~8K tokens ✓
一个 PhD thesis ~100K tokens ✓
CalibrationAGT 代码库 ~400K tokens ⚠
中等规模生产代码库 ~2–5M tokens ✗
你的使用习惯 + 环境配置 + 文档 根本装不下 ✗
AI Agent 的本质
Context Engineering

Agent 的核心工作:决定喂什么

Agent 做的事:

每次调用 LLM 时,决定把哪些信息塞进 context——
读哪些文件、记忆哪些偏好、丢掉哪些历史

📂

读哪些文件

🧠

记忆哪些偏好

🗑️

丢掉哪些历史

今天的核心论点

生产力正在被
重新定价

这是效率重构,而非工具升级

01
Part One · Engineering
猫咪寄养
Web App
从零到生产,由 Claude Code 全程构建
Engineering · 背景
Side Project

大家都知道我女朋友是做宠物寄养的 🐱

我们原来完全没有系统,记录全靠脑子和纸,非常乱。
我做 research 的空档,用 Claude Code 花了几天给她做了个系统。

📋 原来
笔记本、微信群消息、记在脑子里——入住/退房时间经常出错
✅ 现在
寄养管理、上门喂养、预约链接、电子签名、收入统计,功能完整覆盖
Engineering · 系统展示
Desktop

阿里嘎多 · 猫咪寄养 Web App

taolinwei.com/cat-boarding-system
Engineering · 构建过程
Claude Code in Action

传统网页开发流程

拆解需求 需求文档
功能拆解 + 排期
数据库设计 schema.sql
手写迁移脚本
网页UI设计 线框图 → 组件
手写 HTML + CSS
前端开发 纯 HTML + ES Modules
无框架,无构建
调试迭代 Stack Overflow + 文档
手动 debug
生产上线 真实用户
真实业务

Claude Code 开发流程 ✦

App 开发

你: 我要开发一个猫咪寄养的 app。

✓ schema.sql 已生成

✓ HTML + CSS 已写好

✓ 报错已自动修复

✓ 可以上线了

Engineering · 影响
这意味着什么
🏢
一人公司
一个人执行以前需要整个工程团队才能完成的工作
Pieter Levels — 0 名员工 · $3.1M ARR · 70+ 产品
Lovable — 1 人创立 · 8 个月达 $100M ARR
🔬
研究员的工具箱
缺什么工具就造什么——实验管理、可视化、自动化脚本
Komodo Health — 6–8 周分析缩至数小时
Patrick Mineault — NeuroAI 研究员,用 Claude Code 写分析流水线
💡
创业 MVP
验证一个 idea 从数月缩至数天,想法立刻触碰真实用户
Indragie — macOS app · 19k/20k 行由 Claude 写
发票管理系统 — 1 天构建 · API 成本 $3.65
🛠️
生活需求自给自足
日历同步、账单整理、私人 dashboard——自己的需求自己解决
Home Assistant 社区 — 用 Claude Code 从零搭智能家居
非程序员 — Claude Opus 4 + Cursor · 0 行代码写出理财 app

执行门槛大幅降低——跨领域不再是瓶颈。你的上限,是你能想到多少值得做的事。

02
Part Two · Research
CalibrationAGT
标注歧义下的置信度校准
Research · 动机
CalibrationAGT

这篇文章怎么来的?

标注歧义示例
01

Conformal Prediction × 标注歧义

当 ground truth 本身模糊(多个 annotator 不同意),CP 的覆盖率保证还成立吗?

02

Calibration 在这个 setting 下根本没人做过

标注歧义 + calibration——连"该怎么评估"都没有定论

03

Pivot → CalibrationAGT

Calibration 在这个 setting 下同样值得系统研究。

Research · 工作流
每个环节都是文字

拆解 Research in AI —— 每个环节都是文字

📚

文献调研 — 论文、摘要、笔记 · 全是文字

💡

研究方案 — 假设、设计思路、理由 · 文字

🔬

实验脚本 — 代码就是文字

⚠️

报错 & 实验结果 — Stack trace、CSV、日志 · 文字,且有即时反馈

📊

画图 — matplotlib / seaborn 脚本 · 还是文字

📄

论文(LaTeX)— 一切汇总——还是文字

Research · 背景
LLM → Agent

从 LLM 到 Agent

以前 · ChatGPT

# 报错 → 复制,粘贴,问,再粘回来 Error: KeyError: 'ece_true' ↓ 手动 copy → paste → 问 ChatGPT Fix: metrics[key] = ece_fn(logits, labels)
你是中间人,手动搬运信息

现在 · Agent

# 报错 → Agent 全程自动处理 Error: KeyError: 'ece_true' ↓ Agent 读文件、定位原因、改好、跑测试 ✓ All tests passed. Fix pushed.

你负责方向,Agent 执行闭环
→ 你是 Director,不是中间人

Research · Claude Code in Action
实际交互
claude — ~/CalibrationAGT
Research · 工具链
Skills & Skill-Creator

Skills — 给 Agent 装上专属工作流

什么是 Skill?

一个 Markdown 文件,描述 Agent 应当如何完成某类任务。触发后,Agent 按照 skill 的指令执行完整流程。

什么是 Skill-Creator?

一个专门用来写 skill 的 skill。描述你的需求,Agent 自动生成结构化的工作流规范并保存。

使用场景

文献调研、论文写作、实验管理、代码审查、数据预处理——任何重复的流程都可以封装成 skill

Skills = 可复用的 Agent 工作流,一次定义,反复调用

举一反三:/paper-review 审稿工作流 · /experiment-log 实验记录 · /debug-cluster GPU 集群调试 · /weekly-report 自动周报

claude — ~/research
Research · Skill 实战
ai-research-paper

Pipeline

🔧

Phase 0 · Setup

venue · topic · compute → config.md

↻ LOOP

Idea Loop · Phase 1–5

📚

Literature Review

ArXiv MCP · WebSearch · gap 定位

💡

Idea Generation

生成 4 个候选 idea

🤖

6-Agent Debate ← subagents

Critic · Champion · Devil's Advocate…

🚪

AC Gate

REVISE → loop · REJECT → drop · ACCEPT

🔬

Pilot Experiment

快速验证可行性 · PASS 才继续

↓ ACCEPT

Full Experiments · GPU Auto

SSH · gnvitop 调度 · 自主运行

📊

6-Agent Result Debate ← subagents

结果解读 · Contribution 定位

✍️

Paper Writing + Figures

seaborn 图表 · 并行写各节

📱

Review ← subagent → Submit

修正 · Telegram 通知

claude — ~/CalibrationAGT
Research · 更进一步
抛砖引玉

/ai-research-paper 只是起点——
任何重复工作流都可以封装成 skill。

有人在做更自动化的 research pipeline

Chengcheng & Jinxu

AutoAI Research System

github.com/Sibyl-Research-Team/AutoResearch-SibylSystem

Research · 更多示例
Skill 实战
/brainstorm — ~/CalibrationAGT
/frontend-slides — ~/talks
Research · 使用技巧
Tips

Claude Code 使用技巧

1

用 tmux 跑在 server 上——对话 session 不会中断

VS Code 插件无法保证 session 持续

2

VS Code 插件适合即时性任务——比如做 PPT,很快就完成

短平快、当场看结果的任务首选

3

Terminal 选 Ghostty——Anthropic 官方推荐

Claude Code 还很早期,Ghostty bug 最少

4

Chrome 里的 Claude 插件值得一试——可直接操控浏览器界面

适配比本地 app 好

Research · 使用技巧
定价

定价

Claude Code

Pro $20 / 月

轻度使用——约等于每天 4 小时工作强度

Max · 5× $100 / 月

基本够用——日常 research + project 足够

Max · 20× $200 / 月

适合同时跑 5–10 个项目

Codex (OpenAI)

ChatGPT Plus $20 / 月

有限次 Codex 使用额度

ChatGPT Pro $200 / 月

并行任务,有 5h 滚动限额 + 每周上限

03
Part Three · 技术解剖
技术解剖
Agent 的運作原理是什麼?
参考 李宏毅(Hung-yi Lee)机器学习课程 2025 · NTU
技术 · Sub-agent
Context Engineering

Sub-agent:解决 Context 瓶颈

任务太大,一个 context 放不下怎么办?
主 agent spawn 多个 sub-agent,并行处理子任务,只把摘要结果返回主 context。

主 Agent
→ spawn
Sub A:读论文 A
→ spawn
Sub B:读论文 B
← 只返回摘要,不返回全文
  • Sub-agent 有精简的 system prompt,专注单一子任务
  • 多个 sub-agent 并行跑——速度更快
  • Context Window 里只有任务关键信息,推理更准确
技术 · Context 压缩
来自李宏毅课程

Context 超出上限——怎么压缩?(1/2)

为什么 Context 会涨这么快?

工具的输出(tool observations)占了 Context 的 84%
模型自己说的话只占 ~10%

压缩方式 1/2

1

Observation Masking

把工具输出直接换成一句话:
这里曾经有个工具的输出

看起来很粗暴——但实验表明效果和 LLM 摘要差不多

技术 · Context 压缩
来自李宏毅课程

Context 超出上限——怎么压缩?(2/2)

2

LLM Summarization

历史对话太长 → 用 LLM 压成摘要
Claude Code 内置了这个 compaction 机制

Sub-agent = 自动压缩

主 Agent spawn Sub-agent → Sub-agent 积累自己的 Context
↓ sub-agent return
Sub-agent 的整段对话消失,只留 return 的一句话

语言模型不喜欢压缩自己的记忆
所以压缩通常是 Agent 框架强制执行的

技术 · Tool Use 机制
Function Calling

Agent 怎么"动手":Tool Use 循环

Agent 收到任务
发给 LLM(含工具列表)
[tool_use] Read("main.py")
在电脑上执行 Read("main.py")
返回文件内容
加入 context,再次调用 LLM
↓ 循环直到任务完成
[tool_use] Write("fix.py", ...)
写入文件
"done" [END]

强大的原因:shell 命令本质上是文字,而文字正是 LLM 的强项

技术 · 记忆系统
Memory Architecture

System Prompt 里装着 Agent 的"灵魂"

  • CLAUDE.md:项目规则、代码约定、注意事项
  • memory/*.md:用户偏好、历史决策、长期记忆
  • skills/*.md:可复用的工作流(技能库)
  • 工具列表:Read、Write、Bash、WebSearch……
  • 每次调用 LLM 时,这些全部塞进 system prompt
# CLAUDE.md 示例 ## Rules - 用中文回复 - 运行实验前先检查 GPU 占用 - 不要 commit 未测试的代码 ## Project Context 顶刊投稿,ddl: 5/31

一次对话可能塞入 4000+ tokens 的系统信息——
这就是 agent 能持续"记住"项目状态的原因

技术 · 持久化
Hooks · Cron · Memory
🪝
Hooks
工具调用前后执行 shell 命令——验证、记录、发通知
# settings.json hooks: PostToolUse: - command: "notify.sh" match: Bash
Cron
定时调度 agent——监控实验、追踪论文、发送日报
# 每 30 分钟 CronCreate( "*/30 * * * *", "check experiments" )
🧠
Auto-Memory
Agent 自动写入结构化记忆文件,跨会话永久保留
# ~/.claude/projects/ MEMORY.md # 索引 memory/ user.md # 用户偏好 project.md # 当前目标

Agent 成为持久的队友——跨会话记住上下文、对事件自动响应、自行安排检查点。

04
Part Four · 讨论
AI Agent
改变了什么?
科研 · 工程 · 人的价值
讨论 · 新 Mindset
Agent 时代的工作方式

工作,是对结果负责
不是对过程负责,不是对代码行数负责,不是对"我自己写的"负责

Andrej Karpathy
Andrej Karpathy

"Vibe coding — fully give in to the vibes, embrace exponentials, and forget that the code even exists."

沉浸进去,拥抱指数级,忘掉代码本身的存在

X · Feb 2025 → now: "agentic engineering"

Sam Altman
Sam Altman · OpenAI

"We may see the first AI agents join the workforce and materially change the output of companies."

AI agent 将首次进入劳动力市场,实质性地改变企业产出

Blog · Jan 2025

Dario Amodei
Dario Amodei · Anthropic

"AI could soon compress decades of scientific progress into just a few years."

AI 或将把数十年的科学进步压缩进短短几年

Machines of Loving Grace · Oct 2024

讨论 · 科研
Research

论文通货膨胀时代

Agent 让人人都能快速产出论文——arxiv 每天几百篇,reviewers 已经看不过来了

arxiv 年提交量 · arxiv.org/stats(2025年已超 2.8万篇/月)

arXiv new submissions per year by subject area (1991–2021)
讨论 · 科研
Research

Evaluation System 会怎么变?

也许:能不能问出好问题,才是真正的核心竞争力

讨论 · 科研
Agents4Science 2025

第一个 AI 全程主导的学术会议

Stanford · Oct 2025 · agents4science.stanford.edu

Agents4Science 2025 conference statistics figure
  • 314 篇投稿 · 48 篇录用(录取率 ~16%,与顶会相当)
  • AI 全程担任第一作者 + 审稿人
  • 被录用的论文:人类在 hypothesis 和实验设计介入更多
  • AI 审稿:一致性高,但洞察力不如人类
  • 约 44% 的投稿存在幻觉引用

AI 能产出论文——但提出好问题仍然需要人

讨论 · AI Agent 的冲击
学术科研

AI Agent 会替代科研工作者吗?

参考:李宏毅 AI Agent (3/3) · NTU 2026

Andrew Hall (Stanford) · 「100x Research Assistant」

Cost: PhD student 16h $1040 vs Claude Code 1h $10

博士生:16h / $1,040  vs  Claude Code:1h / $10(104× cheaper)

但:人类还没有被替代

  • AI 的 idea 表面新颖,执行后并不比人类好
  • 被接受的论文:人类在 idea 和实验设计介入更多
  • AI 擅长执行,但"做什么"仍需人来判断
讨论 · 工程
Engineering

Senior 工程师生产力 ×10,还要招新人干嘛?

管人 vs 管 Agent

  • 新人:带、讲、review
  • Agent:听话、随时待命、不要工资
  • 1 人 + agent = 5 人团队
  • Junior 的重复工作,agent 全包
  • headcount 逻辑正在被重新定价

那 junior / 新人 还有机会吗?

  • 有——路变窄了,更早找到不可替代的那部分
  • 系统判断 · 用户沟通 · 定义真正需求
  • 能驾驭 agent = 新时代的 10× engineer
  • 独立做完整系统:5 年 → 1 年

这不是悲观——是新的起点

讨论 · 工程
Engineering

Anthropic 劳动力市场研究(2026)

  • 程序员岗位:AI 覆盖 75% 的工作任务
  • 受影响岗位的平均薪资比未受影响岗位高 47%
  • AI 高度覆盖的岗位,22–25 岁就业率下降 13%(Stanford, 2025)
  • 全球劳动力总人数:33 亿
  • 受波及人数:11 亿——约占全球劳动力的 1/3
Claude职业报告(中文) Claude Career Report (English)
🎁 彩蛋
gnvitop
全局 GPU 监控
做 research 顺带开发的小工具——一行命令监控所有实验室 GPU
🎁 Bonus
好物推荐

gnvitop — 全局 GPU 监控

实时监控所有服务器的 GPU 状态——
看看有没有闲置的卡,也看看自己是不是用了太多卡。

pip install gnvitop # 安装
gnvitop # 使用
  • 自动读 ~/.ssh/config,SSH 进所有服务器
  • 实时 Web dashboard,显示全部 GPU 状态
  • 支持 ProxyJump 跳板机
  • 当前用户进程蓝色高亮
gnvitop dashboard

Thanks

Q & A

github.com/Linwei94/talks