2.5 小时交互课

AI 时代
如何学习与开发

给赴美读理科的学生：把模型、工具、开源、成本和验证串成自己的学习与开发生产线。

看懂模型→翻过限制→拆成工作流→做出作品

今天不按说明书讲

每 5 分钟，必须有一个钩子。

I

第一幕

先看懂它，再决定怎么用它。

看懂模型 → 但它有墙 → 怎么翻墙。

01 看懂模型

AI 不是答案机，先是一张认知地图。

最容易掉坑的不是「不知道」，而是「不知道自己不知道」。

?

课堂动作

点四象限，给自己的作业找一个最可能漏掉的坑。

01 看懂模型 · 动手

Interactive 认知四象限

点一格，看升级动作

01 看懂模型 · 核心机制

大语言模型在做一件朴素的事：猜下一个 token。

厉害之处在于，它把「猜」做成了能写作、推理、编码和对话的巨大机器。

Interactive 下一个词预测

01 看懂模型 · 图像

Interactive 扩散模型：从噪声到图像

图像生成不是复制，是一步步去噪。

提示词给方向，模型把随机噪声推向更像目标的画面。

→

带走

文字、图片、视频模型都在把复杂输出拆成可学习的预测。

01 看懂模型 · 家族地图

不要问「哪个模型最好」，先问「我要哪种能力」。

写论文、做图、跑代码、剪视频、搜资料，本来就不是同一种任务。

LLM读写和推理

Vision看图和出图

Agent接工具做事

01 看懂模型 · 动手

Interactive 按任务选模型家族

点任务筛选

文

大语言模型

LLM

读写、总结、解释、改稿。

先建结构

推

推理模型

Reasoning

难题、多步、代码调试。

贵但适合卡点

小

小模型

Local

手机/电脑本地跑。

隐私和成本友好

图

图像模型

Image

海报、插画、风格探索。

靠审美筛选

视

视频模型

Video

短镜头、动效、实验演示。

按秒烧钱

搜

搜索/RAG

Retrieval

把证据拉进上下文。

事实先查再写

代

智能体

Agent

感知、计划、行动、观察。

流程任务

器

工具调用

Tools

代码、文件、计算、浏览器。

给模型手脚

嵌

嵌入模型

Embedding

相似搜索、聚类、推荐。

找资料关键

01 看懂模型 · 旗舰速览（2026·7 核查）

记名字没意义，记「谁擅长什么」。

代表模型	类型	最擅长	硬指标（2026·7）
Claude Opus 4.8 Anthropic · 5 月	LLM · 多模态 · 会思考	写代码、agent、长文档、可靠	SWE-bench 88.6% · 100 万上下文 · $5/$25 每百万 token。这堂课就是它做的。
GPT-5.6 Sol/Terra/Luna OpenAI · 6 月	LLM · 多模态 · 推理	通用最强之一、生态最广	按「能力层」命名：Sol 顶配 / Terra 均衡 / Luna 最省。
Gemini 3.1 Pro Google · 2 月	LLM · 原生多模态	多模态、超长上下文、性价比	GPQA 94.3%（史上最高）· 100 万上下文 · $2/$12。能直接对一段视频提问。
DeepSeek V4 / Qwen 3.7 深度求索 / 阿里 · 开源	LLM · 推理 · 开源	开源可自部署、价格打骨折	V4-Flash 输出仅 $0.28/百万 token（比 Opus 便宜近 90×），能本地跑。
Seedance 2.5 字节跳动 · 6 月	视频生成	影视级、原生音频、物理真实	文生视频 Elo 榜第 1（约 1221）· 原生 30 秒 · 约 $0.14/秒，很贵。
GPT Image 2 / Nano Banana Pro OpenAI / Google	图像生成 · 编辑	出图 + 精准修图、一致性好	文字准确率 99%+ · 跨图人物一致约 95%。本课配图管线。

下一站钩子：会选模型只是入门；真正的麻烦是它强归强，仍然有墙。

02 但它有墙

模型越强，越要知道它在哪里会断。

真正会用 AI 的人，不把它当神，而是知道什么时候要让它停、查、算、分块。

99→70NoLiMa 长上下文掉分

<10%4 小时任务成功率

≥2×幻觉与错误分类挂钩

02 有墙 · 数字变成画面

02 有墙 · 动手

Interactive 它现在需要什么护栏？

事实、长文档、计算分开处理

02 有墙 · 证据优先

Interactive 哪种来源先信？

点一个来源等级

问 AI→追来源→核版本→再使用

02 有墙 · 真实案例的解药

真实案例 · HEATINS 工业节能平台

解药：给每个数字标一个「可信度等级」

HEATINS 帮钢厂算怎么省能耗。一个「省 20%」的数字如果是 AI 拍脑袋编的，就是出人命级别的事故。所以——每个数字强制标注它有多可信：

L0

示例演示
假数据，只看界面长啥样。

L1

工程估算
有公式，没在真设备上验证过。

L2

已校准
和真实测量对得上，误差可量化。

L3

已验证
多批反复验证，能做生产决策。

看到 AI 给的任何数字、任何「研究表明」，第一反应：这是 L1 还是 L2？它凭什么？——这一个习惯，让你比 90% 的人靠谱。

下一站钩子：既然它有墙，我们就给它装梯子、窗户和工具箱。

II

第二幕

从会聊天，变成能干活。

满血调用 → 智能体 → 拆需求 → 工作流。

03 怎么翻墙：满血调用

同一个模型，接上搜索、工具、记忆，像换了一个人。

模型本体只是大脑；harness 是眼睛、手、记事本和实验台。

!

课堂判断

别人说「某模型很强」，先问它有没有联网、工具、长上下文和验证器。

03 满血调用 · 动手

Interactive 调用 ≠ 满血能力放大器

打开能力开关

长上下文把关键材料放进去搜索拿到当前证据工具代码、计算、文件操作记忆保留项目背景思考预算难题多给时间

0

03 满血调用 · 例子

跑分差距有时不是模型差距，而是脚手架差距。

同一类编码任务，换搜索、工具格式、上下文策略，成绩能从勉强能用跳到像专业助手。

42%→78%harness 造成巨大摆幅

50k+工具描述会吃上下文

1-2k子任务回传摘要更稳

03 满血调用 · 四个外接器官

下一站钩子：这些器官连起来，它就不只是助手，而是会循环行动的智能体。

04 让它自己干活：智能体

Agent 不是魔法，是一个循环：看见、计划、行动、观察。

最重要的能力不是一次说对，而是每一步能从环境拿反馈。

04 智能体 · 动手

Interactive Agent 循环

Agent
Loop

感知Sense

规划Plan

行动Act

观察Observe

04 智能体 · 边界

下一站钩子：让它自己干活之前，先把需求拆到它能执行。

05 拿到需求怎么拆

不要对 AI 说「帮我做一个」。先拆成可验收的小块。

学生时代最实用的能力：把模糊作业变成输入、处理、输出、验收。

目标→素材→步骤→证据→交付

05 拆需求 · 动手

Interactive 以图搜图 / 生图 Pipeline

点步骤，看工作流

05 拆需求 · 规格卡

好的 prompt 不是咒语，是规格书。

下一站钩子：拆开只是第一步，真正省时间的是把步骤固定成工作流。

06 新模块：工作流

工作流 = 重复任务的自动驾驶路线。

不是让 AI 一口气做完，而是把每一步变成可替换、可验证、可复用的节点。

输入→节点→检查→下游

06 工作流 · 一张路线图

1. 需求老师要什么？谁看？交付几页？

→

2. 资料来源、数据、图片、评分标准。

→

3. 生成提纲、图、代码、表格分开生成。

→

4. 验证引用、测试、同学能否看懂。

!

关键不是自动化，是可回滚

某一步错了，只重跑那一步；不要把 20 步揉成一个不可解释的大 prompt。

06 工作流 · 可复用模板

任何复杂任务，都先写成 6 行规格。

06 工作流 · 动手

Interactive 这一步该用哪类模型？

点一个任务

06 工作流 · 保持当前

AI 有两本账：订阅额度和 API 账单。

ChatGPT/Claude 的 $20 月费，不等于你在第三方 App 里调用 API 都免费。

具体例子订阅跑 114 张图，可能吃掉周额度 15%；你在自己 App 里调 API，则按 token/秒/图片单独计费。

07 成本 · 动手

Interactive 订阅额度 vs API 两本账

订阅周额度

例如 ChatGPT/Claude 网页端额度

100%

第三方 API 账单

例如你写的 App 后付费

$0.00

真实教训 · openclaw：一个没人看的脚本 12 小时生成 114 张图，周额度一夜 −15%。三条都值钱：① 能一键调用 ≠ 该无限调用 ② 订阅额度不是免费、只是已付过 ③ 自动化必须加限额和审计。

07 成本 · 路由

Interactive 视频成本路由计算器

改数量和秒数

每月短视频条数 30 条

每条平均秒数 8 秒

07 成本 · 省钱不是省质量

07 成本 · 一个省钱小技巧

生图贵？
生成 1 张 4K，再 1 切 4。

要一批小图时，一张 4K 切 4 常常比分别生成 4 张便宜——但先看它怎么收费：按张/按分辨率档收费时省（不少模型 4K 只是 1K 的 ~2.25 倍价）；按像素收费时不省；构图要「可切」、关键元素别跨切缝。

下一站钩子：钱省下来还不够，最快的方法是站在别人已经造好的积木上。

III

第三幕

把 AI 变成自己的放大器。

开源积木 → 内容生产线 → 吃透领域 → 行动包。

08 别人已经造好了：开源

现代开发不是从零开始，而是会挑积木、会改积木。

GitHub、Hugging Face、npm、pip 是新的实验室仓库。但 license 是产权证。

🎵

真实案例 · WAIC-MUSIC 实时 3D 演出

3D 引擎用开源 Three.js、音频可视化直接 fork 现成项目、10 个地标模型来自 Sketchfab CC-BY 免费商用授权；真正值钱的 30%–80%——节奏引擎、编舞、灯光——是自己写的。开源给你积木，创造力决定搭出什么。

08 开源 · 四把尺

Star 是人气，不是质量保证。

08 开源 · License 后果卡

08 开源 · 动手

Interactive 你敢 fork 哪个项目？

看 star、活跃度、license

下一站钩子：积木选好了，下一步是把它们串成能持续产出的生产线。

09 串成生产线：自媒体

内容生产线不是一键爆款，而是把创意拆成可重复节点。

选题、脚本、画面、声音、字幕、质检，每一步都能换模型、工具和预算。

09 自媒体 · 动手

Interactive 16 节点流水线的简化版

点节点看职责

真实原型 · DrVideo：这条线拆成 16 个环节全自动跑；脚本先写 5 版再选；质量由三家不同厂商的模型互相投票共识放行；每步存档、断点续跑。创意判断交给顶级模型，执行和质检交给代码。

09 自媒体 · 不翻车三条

下一站钩子：生产线能产出内容，学习也要变成能产出证据的流程。

10 用它吃透任何领域

吃透不是收藏资料，而是能讲回去、做出来、被问倒后修正。

AI 最适合做学习搭子：建地图、追问、挑错、生成小测，但最后要由你产出。

10 吃透 · 动手

Interactive 3 天吃透一个新主题

输入主题，生成学习动作

10 吃透 · 一个必须知道的研究结果

用 AI「代替思考」，会让你学得更差

Anthropic 2026 年初的实验：学同一样东西，用 AI 帮忙的一组测验平均 50%；自己手写硬啃的一组 67%——差 17 分，差距最大在 debug。因为直接要答案，大脑跳过了「挣扎」，而挣扎才是学习发生的地方。

67%

自己硬啃组

50%

被动用 AI 组

10×

「读懂 AI 产出」比「盲目接受」效率高约 10 倍

同一研究也发现：会用的人反而学得又快又好——诀窍是 ① 先生成再追问「为什么这样写」② 要「代码 + 解释」一起给 ③ 多问概念而不是只要答案。AI 是陪练，不是替考。

10 吃透 · 三个检验

下一站钩子：最后别带走一堆工具名，带走今晚能执行的动作。

11 带走什么：行动

把 AI 当成外骨骼，不要当成替身。

你要练的是判断、验证、拆解、表达和品味。这些能力会随模型一起升值。

Interactive 选 3 个今晚就做

已选 0/6

下一站钩子：真正带走的不是工具名，而是今晚能执行的一组动作。

收束

下一站：把今天的一条方法，用到今晚的真实任务里。

看懂模型知道它怎么生成，也知道它会漏哪里。

翻过限制搜索、工具、分块、验证器一起上。

拆成工作流输入、节点、验收、回滚，缺一不可。

做出作品用开源和 AI 放大自己，而不是交出判断。

案例取自本人项目：HEATINS（工业 AI 节能）· openclaw（订阅反代）· WAIC-MUSIC（实时 3D 演出）· DrVideo（短视频自动线）。数据基准 2026 年 7 月，来源见下一屏。

带走钩子：收藏工具会过期，学会拆解和验证不会。

附 · 部分关键来源（共核查 130+ 条，节选 20 条）

Introducing Claude Opus 4.8 — Anthropic 官方 · anthropic.com Introducing GPT-5.5 — OpenAI 官方 · openai.com Gemini 3 Deep Think — Google · blog.google Veo 3.1 — Google DeepMind · deepmind.google 文生视频排行榜 — Artificial Analysis · artificialanalysis.ai Gemini 3.1 Pro 基准与定价 — LLM-Stats · llm-stats.com Time Horizon 1.1（长任务基准）— METR · metr.org DeepSeek-R1 推理论文 — arXiv · arxiv.org Seedream 4.5 — ByteDance Seed · seed.bytedance.com Seedance 约 $0.14/秒 — TechNode · technode.com Tavily（给 AI 用的搜索）· tavily.com 12-Factor Agents — GitHub · github.com Ollama × MLX（本地跑模型）· ollama.com DeepSeek V4 Pro 评估 — NIST · nist.gov Kling 3.0 发布 — 快手官方 · ir.kuaishou.com DeepSeek V4：架构与定价 · morphllm.com 阿里发布 Qwen3.5 — CNBC · cnbc.com 腾讯混元视频（开源）— Hugging Face · huggingface.co Seedance 2.0 — Wikipedia · en.wikipedia.org ARC-AGI-2 基准 — ARC Prize · arcprize.org

模型格局迭代极快，具体参数以官方最新为准。

AI 时代如何学习与开发

每 5 分钟，必须有一个钩子。

先看懂它，再决定怎么用它。

AI 不是答案机，先是一张认知地图。

大语言模型在做一件朴素的事：猜下一个 token。

图像生成不是复制，是一步步去噪。

不要问「哪个模型最好」，先问「我要哪种能力」。

大语言模型

推理模型

小模型

图像模型

视频模型

搜索/RAG

智能体

工具调用

嵌入模型

记名字没意义，记「谁擅长什么」。

模型越强，越要知道它在哪里会断。

解药：给每个数字标一个「可信度等级」

从会聊天，变成能干活。

同一个模型，接上搜索、工具、记忆，像换了一个人。

跑分差距有时不是模型差距，而是脚手架差距。

Agent 不是魔法，是一个循环：看见、计划、行动、观察。

不要对 AI 说「帮我做一个」。先拆成可验收的小块。

好的 prompt 不是咒语，是规格书。

工作流 = 重复任务的自动驾驶路线。

任何复杂任务，都先写成 6 行规格。

最新的用法，往往不在文档里。

AI 有两本账：订阅额度和 API 账单。

订阅周额度

第三方 API 账单

把 AI 变成自己的放大器。

现代开发不是从零开始，而是会挑积木、会改积木。

Star 是人气，不是质量保证。

内容生产线不是一键爆款，而是把创意拆成可重复节点。

吃透不是收藏资料，而是能讲回去、做出来、被问倒后修正。

用 AI「代替思考」，会让你学得更差

把 AI 当成外骨骼，不要当成替身。

下一站：把今天的一条方法，用到今晚的真实任务里。

AI 时代
如何学习与开发