Web App
Web App · 顶刊文章 · 技术解剖 · 讨论
信息时代的蒸汽机时刻
LLM 每次调用,它看到的全部内容:
Agent 没有记忆——它只能看到 context 里有什么
Context Window 进化
但你的项目有多大?
Agent 做的事:
每次调用 LLM 时,决定把哪些信息塞进 context——
读哪些文件、记忆哪些偏好、丢掉哪些历史
📂
读哪些文件
🧠
记忆哪些偏好
🗑️
丢掉哪些历史
今天的核心论点
这是效率重构,而非工具升级
我们原来完全没有系统,记录全靠脑子和纸,非常乱。
我做 research 的空档,用 Claude Code 花了几天给她做了个系统。
传统网页开发流程
Claude Code 开发流程 ✦
App 开发
✓ schema.sql 已生成
✓ HTML + CSS 已写好
✓ 报错已自动修复
✓ 可以上线了
执行门槛大幅降低——跨领域不再是瓶颈。你的上限,是你能想到多少值得做的事。
Conformal Prediction × 标注歧义
当 ground truth 本身模糊(多个 annotator 不同意),CP 的覆盖率保证还成立吗?
Calibration 在这个 setting 下根本没人做过
标注歧义 + calibration——连"该怎么评估"都没有定论
Pivot → CalibrationAGT
Calibration 在这个 setting 下同样值得系统研究。
文献调研 — 论文、摘要、笔记 · 全是文字
研究方案 — 假设、设计思路、理由 · 文字
实验脚本 — 代码就是文字
报错 & 实验结果 — Stack trace、CSV、日志 · 文字,且有即时反馈
画图 — matplotlib / seaborn 脚本 · 还是文字
论文(LaTeX)— 一切汇总——还是文字
以前 · ChatGPT
现在 · Agent
你负责方向,Agent 执行闭环
→ 你是 Director,不是中间人
什么是 Skill?
一个 Markdown 文件,描述 Agent 应当如何完成某类任务。触发后,Agent 按照 skill 的指令执行完整流程。
什么是 Skill-Creator?
一个专门用来写 skill 的 skill。描述你的需求,Agent 自动生成结构化的工作流规范并保存。
使用场景
文献调研、论文写作、实验管理、代码审查、数据预处理——任何重复的流程都可以封装成 skill
Skills = 可复用的 Agent 工作流,一次定义,反复调用
举一反三:/paper-review 审稿工作流 ·
/experiment-log 实验记录 ·
/debug-cluster GPU 集群调试 ·
/weekly-report 自动周报
Pipeline
Phase 0 · Setup
venue · topic · compute → config.md
Idea Loop · Phase 1–5
Literature Review
ArXiv MCP · WebSearch · gap 定位
Idea Generation
生成 4 个候选 idea
6-Agent Debate ← subagents
Critic · Champion · Devil's Advocate…
AC Gate
REVISE → loop · REJECT → drop · ACCEPT ↓
Pilot Experiment
快速验证可行性 · PASS 才继续
Full Experiments · GPU Auto
SSH · gnvitop 调度 · 自主运行
6-Agent Result Debate ← subagents
结果解读 · Contribution 定位
Paper Writing + Figures
seaborn 图表 · 并行写各节
Review ← subagent → Submit
修正 · Telegram 通知
/ai-research-paper 只是起点——
任何重复工作流都可以封装成 skill。
有人在做更自动化的 research pipeline
Chengcheng & Jinxu
AutoAI Research System
github.com/Sibyl-Research-Team/AutoResearch-SibylSystem
用 tmux 跑在 server 上——对话 session 不会中断
VS Code 插件无法保证 session 持续
VS Code 插件适合即时性任务——比如做 PPT,很快就完成
短平快、当场看结果的任务首选
Terminal 选 Ghostty——Anthropic 官方推荐
Claude Code 还很早期,Ghostty bug 最少
Chrome 里的 Claude 插件值得一试——可直接操控浏览器界面
适配比本地 app 好
Claude Code
轻度使用——约等于每天 4 小时工作强度
基本够用——日常 research + project 足够
适合同时跑 5–10 个项目
Codex (OpenAI)
有限次 Codex 使用额度
并行任务,有 5h 滚动限额 + 每周上限
任务太大,一个 context 放不下怎么办?
主 agent spawn 多个 sub-agent,并行处理子任务,只把摘要结果返回主 context。
为什么 Context 会涨这么快?
工具的输出(tool observations)占了 Context 的 84%
模型自己说的话只占 ~10%
压缩方式 1/2
Observation Masking
把工具输出直接换成一句话:
「这里曾经有个工具的输出」
看起来很粗暴——但实验表明效果和 LLM 摘要差不多
LLM Summarization
历史对话太长 → 用 LLM 压成摘要
Claude Code 内置了这个 compaction 机制
Sub-agent = 自动压缩
语言模型不喜欢压缩自己的记忆
所以压缩通常是 Agent 框架强制执行的
强大的原因:shell 命令本质上是文字,而文字正是 LLM 的强项
一次对话可能塞入 4000+ tokens 的系统信息——
这就是 agent 能持续"记住"项目状态的原因
Agent 成为持久的队友——跨会话记住上下文、对事件自动响应、自行安排检查点。
工作,是对结果负责
不是对过程负责,不是对代码行数负责,不是对"我自己写的"负责
"Vibe coding — fully give in to the vibes, embrace exponentials, and forget that the code even exists."
沉浸进去,拥抱指数级,忘掉代码本身的存在
X · Feb 2025 → now: "agentic engineering"
"We may see the first AI agents join the workforce and materially change the output of companies."
AI agent 将首次进入劳动力市场,实质性地改变企业产出
Blog · Jan 2025
"AI could soon compress decades of scientific progress into just a few years."
AI 或将把数十年的科学进步压缩进短短几年
Machines of Loving Grace · Oct 2024
Agent 让人人都能快速产出论文——arxiv 每天几百篇,reviewers 已经看不过来了
arxiv 年提交量 · arxiv.org/stats(2025年已超 2.8万篇/月)
也许:能不能问出好问题,才是真正的核心竞争力
Stanford · Oct 2025 · agents4science.stanford.edu
AI 能产出论文——但提出好问题仍然需要人
参考:李宏毅 AI Agent (3/3) · NTU 2026
Andrew Hall (Stanford) · 「100x Research Assistant」
博士生:16h / $1,040 vs Claude Code:1h / $10(104× cheaper)
但:人类还没有被替代
管人 vs 管 Agent
那 junior / 新人 还有机会吗?
这不是悲观——是新的起点
实时监控所有服务器的 GPU 状态——
看看有没有闲置的卡,也看看自己是不是用了太多卡。
~/.ssh/config,SSH 进所有服务器Thanks
github.com/Linwei94/talks