你要去美国读理科了。这不是一堂教你「用哪个 App」的课——工具明年就换了。这是一堂讲底层判断力的课:看懂各种模型到底是什么、怎么用代码把它们拼成自己的东西、怎么在花小钱的前提下放大自己,以及——怎么用 AI 在几天内吃透一个你原本完全不懂的领域。
→ 往右翻页。整套课件就在这一页页里,讲完你可以留着自己慢慢再看。(← → 翻页 · 内容多的页可上下滚)
别人分享 AI,常常是「安利 App」。我想给你的,是一副能用很多年的认知框架。三幕,十站。
模型不是一种东西。语言、图像、视频、世界模型……先建一张全景图,再认清它们今天还做不到什么。看不懂就会被忽悠。
「调用一个模型」和「让它发挥满血」是两回事。上下文、搜索、工具、智能体、成本——这一幕全是工程与经济学。
站在开源肩膀上、批量做内容、几天吃透一个陌生领域。AI 不替代你,它是一个放大器——放大你的判断力。
AI 把「执行」变便宜了,于是「提对问题」和「判断好坏」变贵了。这堂课几乎每一站,都在练这两件事。
有人把「和 AI 一起干活」拆成一个经典的四象限(已知已知 / 已知未知 / 未知已知 / 未知未知)。它很好,但只停在「描述」。我们把它升级成能动手的方法——每一格,在 AI 时代都有一个具体动作。
原图告诉你「有四种不知道」。升级版告诉你:把未知未知,用一次主动的「盲点提问」变成已知未知;把已知未知,用 AI 拆解变成已知已知;而未知已知(你的品味),是你要一辈子打磨、最不可替代的东西。
Ⅰ先认清你面对的是什么。模型不是一种东西,而是一个物种繁多的家族——而且每一个,都有它今天还翻不过去的墙。
大多数人说「AI」,脑子里只有 ChatGPT。但今天的模型是一整个家族:有的处理语言,有的画画,有的生成视频,有的在你手机里离线跑,还有的在生成一个能玩的世界。用途不同、成本差几百倍。先认识全家,才谈得上会用。
GPT、Claude、Gemini 都属于大语言模型(LLM)。它听起来在「思考」,其实核心机制朴素得惊人:看着前面的文字,一个词一个词地预测「接下来最可能是什么」。把这件事在海量文本上练到极致,就长出了写作、翻译、写代码的能力。自己点一下试试:
一句话在末端分叉成许多「可能的下一个词」💡 每个词都是从一堆「概率候选」里挑的。这解释了两件事:为什么它同一个问题每次答得略不同,以及为什么它会一本正经地编造——它挑的是「最像对的词」,不是「查过的事实」。
点一个你想做的事,看该用哪一类模型。这张表你以后每次开新项目都可以在脑子里过一遍。
把语言变成可计算的东西:读、写、总结、翻译、对话、写代码。是今天大多数 AI 应用的「大脑」。
回答前先「想」很久,用更多计算换更对的结果。适合数学、多步规划、复杂 debug。慢且贵。
小到能塞进手机、笔记本,断网也能跑。省钱、保护隐私、响应快。能力不如旗舰,但很多任务够用。
文字 → 图片,或图 → 图修改。海报、插画、产品图、换背景。这堂课的 27 张配图就是这么来的。
文字或一张图 → 会动的画面,最新的还能带原生音效、多镜头、真实物理。最贵的一类。
生成一个能交互、有物理、会自己往下演的世界。你按一下,世界会响应。通向游戏、机器人、具身智能。
文字 ↔ 声音:配音(TTS)与转写字幕(ASR)。做视频、播客、无障碍朗读都靠它。
把任意内容变成一串数字坐标,让机器判断「像不像」。是搜索、推荐、和「让 AI 记住你资料」的地基。
一个模型同时吃文字、图片、声音、视频。今天的旗舰几乎都是多模态——你可以直接把一张照片丢给它问。
给你一点直觉画面——它们不是一种东西,脾气也很不一样。




画图模型用的是扩散(diffusion):先给一张纯噪声(像老电视的雪花),再一步步「去噪」,把雪花逐渐擦成一张符合你描述的图。视频生成是同一个思路,只是要让连续的帧之间保持一致、还符合物理。右边这个动画就是去噪的过程——拖动滑块,你能看到雪花如何变成图。
理解这一点,你就懂了它的两个脾气:细节是「猜」出来的(所以偶尔多根手指、文字乱码),以及同样的描述每次结果不同(起点的噪声是随机的)。
模型迭代快到以周计,记名字没意义,记「谁擅长什么」才有用。下面这张随时会过期,但格局大致如此(以官方最新为准)。
| 代表模型 | 类型 | 最擅长 | 硬指标(2026·7) |
|---|---|---|---|
| Claude Opus 4.8 Anthropic · 5 月 | LLM · 多模态 · 会思考 | 写代码、agent、长文档、可靠 | SWE-bench 88.6% · 100 万上下文 · $5/$25 每百万 token。这堂课就是它做的。 |
| GPT-5.6 Sol/Terra/Luna OpenAI · 6 月 | LLM · 多模态 · 推理 | 通用最强之一、生态最广 | 改按「能力层」命名:Sol 顶配 / Terra 均衡 / Luna 最省。你 openclaw 反代的就是这条线。 |
| Gemini 3.1 Pro Google · 2 月 | LLM · 原生多模态 | 多模态、超长上下文、性价比 | GPQA 94.3%(史上最高)· 100 万上下文 · $2/$12。能直接对一段视频提问。 |
| DeepSeek V4 / Qwen 3.7 深度求索 / 阿里 · 开源 | LLM · 推理 · 开源 | 开源可自部署、把价格打骨折 | V4-Flash 输出仅 $0.28/百万 token(比 Opus 便宜近 90×),能本地跑。 |
| Seedance 2.5 字节跳动 · 6 月公布 | 视频生成 | 影视级、原生音频、物理真实 | 文生视频 Elo 榜第 1(约 1221)· 原生 30 秒 · 约 $0.14/秒,很贵。 |
| GPT Image 2 / Nano Banana Pro OpenAI / Google | 图像生成 · 编辑 | 出图 + 精准修图、文字与一致性好 | 文字准确率 99%+ · 跨图人物一致约 95%。你项目的配图管线。 |
※ 数据基准 2026 年 7 月,经多方核查;模型每几周就迭代,具体数字以官方最新为准。原则不变:别记参数,记「用它来干嘛」。
这一节可能是全课最重要的。因为一个理科生用 AI 最大的风险,不是它不够聪明,而是你以为它查过、其实它在猜。认清这几堵墙,你才敢用、也才知道什么时候不能用。
它会把「最像对的答案」讲得斩钉截铁——编造论文、编造 API、编造数据。因为它的机制是「猜下一个词」,不是「查数据库」。
不给它联网,它只知道训练那一刻之前的世界。问它上周的事,它要么说不知道,要么一本正经地瞎编。
号称能读几十万字,但塞太长时,藏在中间的关键信息容易被忽略(lost in the middle)。别指望它逐字读完你的百页 PDF。
它不是计算器。大数相乘、精确统计,经常错。正确做法是让它调用工具去算,而不是自己心算。
最危险的不是它会错,而是它不知道自己错了——它对错误答案的自信,和对正确答案的自信,看起来一模一样。 所以「验证」永远是你的活,不是它的活。
我做的一个工业 AI 项目 HEATINS,帮钢厂算怎么省能耗。这种场景里,一个「省 20%」的数字如果是 AI 拍脑袋编的,就会出人命级别的事故。所以我们做了一件事——给每个数字强制标注它有多可信:
示例演示
假数据,只看界面长啥样。
工程估算
有公式,但没在真设备上验证过。
已校准
和真实测量对得上,误差可量化。
已验证
多批反复验证,能拿去做生产决策。
看到 AI 给的任何一个数字、任何一句「研究表明」,你的第一反应应该是:这是 L1 还是 L2?它凭什么这么说? 这一个习惯,能让你在美国的实验室、论文、和未来工作里,比 90% 的人更靠谱。
给它联网搜索治知识截止;给它工具(计算器/代码)治算术;给它你的资料库(检索)治幻觉;最后,用你的判断做终审。模型是引擎,这些是刹车和方向盘。
Ⅱ同一个模型,在小白手里和在高手手里,差的不是模型,是外面那层「脚手架」。这一幕全是工程与经济学。
很多人以为「用 AI」就是打开对话框问问题。但你在网页里随便问的那个模型,和一个工程师精心「配置」过的同一个模型,能力差得像业余和职业。差别不在模型,在它外面那层脚手架——业内叫 harness。
同一个核心,左边裸奔,右边接满脚手架在 SWE-bench(真实代码修复)里,同一个模型只是换了外面的脚手架,成绩能从 42% 一路飙到 78%——36 分的差距全来自 harness,模型本身一个字没改。这就是为什么「会配置」常常比「换最新模型」更值钱。
模型本身不会上网。要让它查到最新、真实的信息,你得给它接一个专为 AI 设计的搜索 API——最常用的一个叫 Tavily。它和你在浏览器里搜 Google 不一样:它把搜索结果整理成干净、适合喂给模型的材料,还能直接抽取要点。
这里有个很多人不知道的点:这类能力要单独的 API 服务和权限。你「调用模型」是一份账;你给它配的「搜索、抓网页、跑代码」这些外挂能力,是另外一份账、另外一套 key。所谓 harness,就是把这些零件接好——这也是为什么专业的 coding agent、research agent 那么强:它们背后接了一整套服务。(Tavily 免费层每月约 1,000 次搜索,2026 年 2 月被云厂商 Nebius 以 2.75 亿美元 收购——「给 AI 用的搜索」已经是一门正经的大生意。)
我的短视频自动生产线 DrVideo,第一步就是让主脑模型用 Tavily 联网做调研,再据此写脚本。没有这一步,它写的东西就是「凭记忆瞎编」。
「换个更强的模型」常常不如「给现在的模型配好上下文和工具」。真正的高手,花在搭脚手架上的功夫,远多于换模型。
一个模型只会「你问一句、它答一句」。但如果你用代码给它套一个循环,让它自己规划、调用工具、看结果、再决定下一步——它就成了一个智能体(agent)。这就是从「聊天机器人」到「数字员工」的那道门。
感知 → 规划 → 行动 → 观察,转起来就是智能体让模型能「动手」:查资料、算数、发邮件、改文件。模型负责决定「用哪个、传什么参数」,代码负责真的去执行。
一个正在成为标准的「通用插座」——Model Context Protocol。把工具做成 MCP,任何 agent 都能即插即用,不用为每个模型重写一遍。
一个总指挥,派一群「子智能体」并行去干各自的活,再汇总。这堂课的前期调研,就是我派了十几个子 agent 同时上网研究出来的。
你爸用的 Claude Code、Codex、Cursor 这些「会自己写代码、跑测试、改文件」的工具,本质都是包了一层强大 harness 的 coding agent。它们能干活,不是因为模型神,而是因为背后接好了:读写文件、跑命令、搜索、记忆、还有一套让它「别跑偏」的规则。
一个最小的 agent = 模型 + 一个循环 + 几个工具 + 一份说明书(告诉它目标和边界)。理解了这个公式,你就能看懂几乎所有 AI 产品是怎么搭出来的。
模型按 token 收费(token ≈ 半个到一个词)。真正让人踩坑的,不是单价,而是两种完全不同的「花钱方式」被搞混。搞清楚这一节,你能省下大把冤枉钱。
token 就是 AI 的燃料——会算账,才玩得起「包月订阅」和「按量付费的 API」是两套完全不同的心智。下面这个小实验,直接让你体感它们的区别——特别注意「跑批量出图」那一下。
我写了个小网关 openclaw,把订阅的模型能力反代成本地 API 给别的程序用。有天一个后台出图脚本没人看着,12 小时里生成了 114 张图,直接把 Codex 的周额度从 95% 打到 80%——一晚上吃掉 15%。
教训有三条,都值钱:① 能一键调用 ≠ 该无限调用。② 订阅额度不是「免费」,只是「已经付过了」。③ 自动化脚本一定要加限额和审计——这也是为什么我叮嘱出图一次只生成一张、绝不并行。
要大批量生成内容时,「全用最好的模型」会烧钱到肉疼。高手的做法是路由(routing):大部分用便宜的够用模型打底,只在最关键的地方用顶配。拖一拖下面的滑块,感受一下差别。
※ 单价为演示量级,会按最新官方价校准;比例关系是真实的。
我的 DrVideo 短视频线用了一个叫 Cascade Gate 的省钱设计:先用免费的规则检查挡掉明显问题,再用便宜的单模型抽查,只有到最后终审,才动用三个顶级模型互相投票。贵的手段只在最关键处出手。
先问「这个任务,最便宜的够用方案是什么」,再决定要不要升级。默认用够用的,只为真正重要的东西付顶配的钱。
Ⅲ前面都是「术」。这一幕是「道」:怎么站在别人的成果上、怎么批量产出、怎么几天吃透一个新领域。AI 是放大器,放大的是你。
在学校,老师要你「自己独立完成」。到了真实世界,规则反过来了:能复用别人做好的,就绝不从零写。全世界的工程师把海量高质量代码免费放在 GitHub、模型放在 HuggingFace、组件放在 npm——你的本事,是会挑、会拼、会改,再加上你自己那一层独特的东西。
我做的一个把地标渲染成音乐舞台的实时 3D 项目 WAIC-MUSIC,几乎全站在开源上:3D 引擎用开源的 Three.js,音频可视化直接 fork 了 GitHub 上一个现成项目再改,10 个地标 3D 模型是从 Sketchfab 拿的免费授权(CC BY,署名即可商用)模型。
但它不是「抄」——真正值钱的那 30%–80%,是我自己写的:音乐节奏怎么驱动画面、十个场景怎么编舞、灯光怎么设计。开源给你积木,你的创造力决定搭出什么。
| 模块 | 开源/别人提供 | 我自己的增值 | 自研占比 |
|---|---|---|---|
| 3D 引擎 | Three.js 全套 | 场景编排、参数优化 | 40% |
| 3D 模型资产 | 10 个 Sketchfab CC-BY 模型 | 程序化增强 + 编舞 + 灯光 | 70% |
| 音乐响应 | Web Audio 标准 + fork 的可视化框架 | 频谱分析、节奏引擎、编舞逻辑 | 80% |
| 部署 | Cloudflare 托管 | 打包脚本 + 自动验收 | 10% |
看 star 数(多≈可靠)、看最近有没有人维护(提交时间)、看 license(能不能商用、要不要署名)、看 issue 里大家踩了什么坑。
把一个看不懂的开源项目丢给 AI:「用大白话讲这个项目在干嘛、入口在哪、我要改 X 该动哪个文件」。几分钟顶过去几小时。
不纠结每一行语法,先让 AI 把能跑的版本拼出来,你在上面调、改、拼。先跑起来,再变好。
开源不等于「随便用」。license 要看清(有的要求署名、有的禁止商用、有的要求你也开源);在学校里,哪些能用 AI、哪些必须自己写,要问清楚老师。站在肩膀上,也要站得干净。
前面所有模型(语言、图像、视频、语音)串起来,就能做一件很实际的事:批量生产内容。不管你以后是做科普、做作品集、还是记录科研,这套流水线思路都用得上。
DrVideo 把上面这条线拆成 16 个环节,全自动跑:输入一句话或一个 PDF,输出一条带字幕、配音、卡点的竖屏短视频。它的核心哲学很值得学——所有「创意判断」交给顶级大模型,所有「执行和质检」交给代码。而且质量不是靠一个模型说了算,是让 三个不同厂家的模型互相投票,达成共识才放行。
你不用一上来就做 16 环节。但「把一件重复的事,拆成清晰的步骤,让 AI 一步步做,你在关键处把关」——这个思路,能用在写论文、做实验记录、整理文献、甚至找工作投简历上。
你去读理科,四年里会不断遇到全新的、没人教过你的领域。过去,进入一个陌生领域要啃几个月;现在,用对方法,几天就能上手到「能对话、能判断」。这不是让你偷懒,是让你把省下的时间,花在更深的思考上。
工业热处理是个我原本完全不懂的领域。为了让完全零基础、甚至有阅读障碍的人也能学会,我用 AI 做了一门 7 天速成课:从「金属为什么要烧」一路讲到「这门生意怎么赚钱」,每天 15 分钟、大量配图、还能朗读。
做这门课的过程,本身就是我用 AI 吃透这个领域的过程——AI 帮我把复杂知识拆成台阶,我在每一层验证、纠错、补图。教是最好的学。
你可能见过一张「Before / During / After 实施」的工作流图。它很好,但它讲的是「做项目」。我把它改造成一个「学新领域」的闭环——每一段,都配上一个具体的 AI 动作:
Anthropic 2026 年初做过一个实验:学同一样东西,用 AI 帮忙的一组,测验平均分 50%;自己手写硬啃的一组,67%——差了整整 17 分。差距最大的地方是 debug(判断代码为什么错)。为什么?因为让 AI 直接给答案,你的大脑跳过了「挣扎」这一步,而挣扎才是学习真正发生的地方。
诀窍就是上面那个闭环里的三个动作:① 先让 AI 生成,再追问「为什么这样写」;② 让它「代码 + 解释」一起给;③ 多问概念问题,而不是只要答案。做到这三点的人,是全场表现最好的。AI 是陪练,不是替考。
用 AI 学习的最高境界,不是让它替你想,而是让它陪你想——它负责耐心、广博、随叫随到;你负责好奇、追问、和最后那句「等等,这里我还是不信」。 这句「我还是不信」,是你最珍贵的能力。
参考图告诉你「学完的东西会变成下次的地图」。升级版告诉你每一步具体做什么、用 AI 的哪个动作——盲点扫描、费曼追问、自测闭环。方法论只有能落到动作,才真的有用。
工具会变,模型会换代,但有些东西越来越值钱。这是这堂课想让你真正带走的。
AI 时代,答案很便宜,好问题很贵。能把一个模糊的困惑,问成一个清晰、可回答的问题,是核心竞争力。
AI 能给你一百个方案,「哪个对」要你定。刻意练习你的审美和标准——这是最难被替代的。
永远问「它凭什么这么说、这是 L1 还是 L2」。会验证的人,用 AI 是加速;不会的,是加速犯错。
会把不同领域的积木拼起来的人,在 AI 时代赢麻了。理科的底子 + 会用 AI,就是你的跨界优势。
AI 不会让努力过时,它让「有判断力的努力」变得前所未有地强大。带着好奇心和怀疑精神去用它——工具越强,越需要一个清醒的人握着方向盘。那个人,就是你。祝你在大洋彼岸,学得又快又深。