Web App
Web App · 顶刊文章 · 技术解剖 · 讨论
信息时代的蒸汽机时刻
类比 Markov chain:给定所有已有的 token,预测下一个——然后重复。模型从不"规划全局",它只回答一个问题:下一个 token 是什么?
Context window = 工作记忆
模型能看到的,就是这一整段序列。没有跨调用的状态。
输出 = 词表上的概率分布
每步输出 P(下一个 token | 所有已有 token),temperature 控制分布的"锐度"。
LLM 每次调用,它看到的全部内容:
Agent 没有记忆——它只能看到 context 里有什么
Context Window 进化
但你的项目有多大?
Agent 做的事:
每次调用 LLM 时,决定把哪些信息塞进 context——
读哪些文件、记忆哪些偏好、丢掉哪些历史
📂
读哪些文件
🧠
记忆哪些偏好
🗑️
丢掉哪些历史
今天的核心论点
这是效率重构,而非工具升级
我们原来完全没有系统,记录全靠脑子和纸,非常乱。
research之余的小项目
传统网页开发流程
Claude Code 开发流程 ✦
App 开发
✓ schema.sql 已生成
✓ HTML + CSS 已写好
✓ 报错已自动修复
✓ 可以上线了
执行门槛大幅降低——跨领域不再是瓶颈。你的上限,是你能想到多少值得做的事。
Conformal Prediction × 标注歧义
当 ground truth 本身模糊(多个 annotator 不同意),CP 的覆盖率保证还成立吗?
Calibration 在这个 setting 下根本没人做过
标注歧义 + calibration——连"该怎么评估"都没有定论
Pivot → CalibrationAGT
Calibration 在这个 setting 下同样值得系统研究。
文献调研 — 论文、摘要、笔记 · 全是文字
研究方案 — 假设、设计思路、理由 · 文字
实验脚本 — 代码就是文字
报错 & 实验结果 — Stack trace、CSV、日志 · 文字,且有即时反馈
画图 — matplotlib / seaborn 脚本 · 还是文字
论文(LaTeX)— 一切汇总——还是文字
以前 · ChatGPT
现在 · Agent
你负责方向,Agent 执行闭环
→ 你是 Director,不是中间人
什么是 Skill?
一个 Markdown 文件,描述 Agent 应当如何完成某类任务。触发后,Agent 按照 skill 的指令执行完整流程。
什么是 Skill-Creator?
一个专门用来写 skill 的 skill。描述你的需求,Agent 自动生成结构化的工作流规范并保存。
使用场景
文献调研、论文写作、实验管理、代码审查、数据预处理——任何重复的流程都可以封装成 skill
Skills = 可复用的 Agent 工作流,一次定义,反复调用
举一反三:/paper-review 审稿工作流 ·
/experiment-log 实验记录 ·
/debug-cluster GPU 集群调试 ·
/weekly-report 自动周报
Pipeline
Phase 0 · Setup
venue · topic · compute → config.md
Idea Loop · Phase 1–5
Literature Review
ArXiv MCP · WebSearch · gap 定位
Idea Generation
生成 4 个候选 idea
6-Agent Debate ← subagents
Critic · Champion · Devil's Advocate…
AC Gate
REVISE → loop · REJECT → drop · ACCEPT ↓
Pilot Experiment
快速验证可行性 · PASS 才继续
Full Experiments · GPU Auto
SSH · gnvitop 调度 · 自主运行
6-Agent Result Debate ← subagents
结果解读 · Contribution 定位
Paper Writing + Figures
seaborn 图表 · 并行写各节
Review ← subagent → Submit
修正 · Telegram 通知
/ai-research-paper 只是起点——
任何重复工作流都可以封装成 skill。
更自动化的 Research Pipeline
AutoResearch · SibylSystem
github.com/Sibyl-Research-Team/
AutoResearch-SibylSystem
扫码访问
图1:LUMI-lab 系统总览——Foundation Model + 主动学习 + 机器人实验室 → 合成 1,700 个 LNP → 小鼠肺部基因编辑效率 20.3%
用 tmux 跑在 server 上——对话 session 不会中断
VS Code 插件无法保证 session 持续
VS Code 插件适合即时性任务——比如做 PPT,很快就完成
短平快、当场看结果的任务首选
Terminal 选 Ghostty——Anthropic 官方推荐
Claude Code 还很早期,Ghostty bug 最少
Chrome 里的 Claude 插件值得一试——可直接操控浏览器界面
适配比本地 app 好
Claude Code
轻度使用——约等于每天 4 小时工作强度
基本够用——日常 research + project 足够
适合同时跑 5–10 个项目
Codex (OpenAI)
有限次 Codex 使用额度
并行任务,有 5h 滚动限额 + 每周上限
任务太大,一个 context 放不下怎么办?
主 agent spawn 多个 sub-agent,并行处理子任务,只把摘要结果返回主 context。
为什么 Context 会涨这么快?
工具的输出(tool observations)占了 Context 的 84%
模型自己说的话只占 ~10%
压缩方式 1/2
Observation Masking
把工具输出直接换成一句话:
「这里曾经有个工具的输出」
看起来很粗暴——但实验表明效果和 LLM 摘要差不多
LLM Summarization
历史对话太长 → 用 LLM 压成摘要
Claude Code 内置了这个 compaction 机制
Sub-agent = 自动压缩
语言模型不喜欢压缩自己的记忆
所以压缩通常是 Agent 框架强制执行的
强大的原因:shell 命令本质上是文字,而文字正是 LLM 的强项
一次对话可能塞入 4000+ tokens 的系统信息——
这就是 agent 能持续"记住"项目状态的原因
Agent 成为持久的队友——跨会话记住上下文、对事件自动响应、自行安排检查点。
工作,是对结果负责
不是对过程负责,不是对代码行数负责,不是对"我自己写的"负责
"Vibe coding — fully give in to the vibes, embrace exponentials, and forget that the code even exists."
沉浸进去,拥抱指数级,忘掉代码本身的存在
X · Feb 2025 → now: "agentic engineering"
"We may see the first AI agents join the workforce and materially change the output of companies."
AI agent 将首次进入劳动力市场,实质性地改变企业产出
Blog · Jan 2025
"AI could soon compress decades of scientific progress into just a few years."
AI 或将把数十年的科学进步压缩进短短几年
Machines of Loving Grace · Oct 2024
Agent 让人人都能快速产出论文——arxiv 每天几百篇,reviewers 已经看不过来了
arxiv 年提交量 · arxiv.org/stats(2025年已超 2.8万篇/月)
也许:能不能问出好问题,才是真正的核心竞争力
Stanford · Oct 2025 · agents4science.stanford.edu
AI 能产出论文——但提出好问题仍然需要人
参考:李宏毅 AI Agent (3/3) · NTU 2026
Andrew Hall (Stanford) · 「100x Research Assistant」
博士生:16h / $1,040 vs Claude Code:1h / $10(104× cheaper)
但:人类还没有被替代
管人 vs 管 Agent
那 junior / 新人 还有机会吗?
这不是悲观——是新的起点
Agent Harness = 包裹在模型外的脚手架:工具定义、Prompt、工作流、上下文管理。
同一个模型,换个 harness,结果天壤之别。
Anthropic · CORE-Bench
同一模型(Claude Opus 4.5),从通用 scaffold 换成 Claude Code harness。涨了 36 分。
LangChain · Terminal Bench 2.0
模型没动,只加了自验证循环和上下文工程。排名 Top 30 → Top 5。
OpenAI · Codex Harness
3 名工程师,5 个月,100 万行生产代码,全由 Codex agent 写。只用了正常开发时间的 1/10。
核心机制 — Progressive Disclosure:每一步只让模型看到它需要的信息,其余全部隐藏。这是大多数 harness 提升的根本原因。
明确告诉 agent 什么时候不该调用
某工程师接了 12 个工具,agent 老是反复调同一个接口。换成 4 个描述精确的工具后,无效调用减少 40%。
一条配置规则,胜过新加一个工具
Vercel 的 agent 工具箱很大,agent 经常不知道该用哪个。删掉工具库,改成直接跑 bash 命令——成功率 100%,速度快了 3.5 倍。
为旧模型搭的脚手架,可能正在拖慢新模型
Manus 6 个月重写 5 次,越写越精简。一个工程师周四删掉了整套记忆系统,周五响应延迟就降了 2.3 秒。
"模型越强,我们越应该让开,别挡着它。" — Peak Ji,Manus 首席科学家
实时监控所有服务器的 GPU 状态——
看看有没有闲置的卡,也看看自己是不是用了太多卡。
~/.ssh/config,SSH 进所有服务器Thanks
github.com/Linwei94/talks