机器学习
从样本里学一个函数,用来预测未知结果。
AI 大模型原理分享 · 通俗版
一条主线讲清楚:机器如何做预测,为什么文本预测能长出智能,Agent / Skill / MCP 又把模型推进到“能做事”。
今天的路线
从样本里学一个函数,用来预测未知结果。
用多层神经网络拟合更复杂的函数。
把“预测”搬到文本上:预测下一个 token。
模型接上工具、Skill、MCP,形成能执行任务的循环。
01 / Machine Learning
传统程序是人写规则;机器学习是给机器很多例子,让它自己调出一套“从输入到输出”的函数。
目标:找到 f,让 f(新输入) 尽量接近真实结果
机器学习 vs 规则系统
“如果距离 > 5km 且下雨,则预计时间 + 8 分钟”。问题是例外太多,规则越写越碎。
把距离、天气、路况、历史订单都给模型,让它从大量样本中学出组合关系。
02 / Deep Learning
每个神经元不是小脑袋,而是把输入数字乘上一组权重、加起来,再经过一个简单函数。训练就是不断调整这些权重。
Function Approximation
天气、路况、用户偏好、文字语义都不是简单线性关系。神经网络擅长从样本里学出这种高维曲线。
03 / Deep Learning 能做什么
输入:距离、路况、天气、历史履约;输出:预计多久到。
f(订单特征) → 时间输入:用户、商品、价格、活动、时段;输出:点击/下单概率。
f(场景特征) → 概率输入:像素矩阵;输出:猫、车、病灶、缺陷。
f(图像) → 类别输入:前文 token;输出:下一个 token 的概率。
f(上下文) → next token04 / Text Prediction
模型不认识“字”的形状,它只处理向量。文本先被切成 token,再映射成 embedding,也就是一串可以参与矩阵运算的数字。
Transformer / Attention
当模型要理解“苹果”时,它会根据当前任务给前后词打分:如果在讲发布会,就重点看 iPhone;如果在讲饮料,才更看果汁。
每个 token 都会做一次这样的打分和汇总,所以模型能根据上下文改变词义。
为什么要 GPU
一个 token 是向量;每一层都有很多权重矩阵。模型生成一句话,就是不断做“向量 × 矩阵”,再决定下一个 token。
一层算完得到新向量;几十/上百层后,再转成“下一个词”的概率。
05 / 智能从哪里来
要续写通顺,就必须学会语言结构。
要回答事实,就会压缩大量世界知识。
要写代码、证明、计划,就会学到多步模式。
要按格式调用工具,就会学会协议和约束。
一句话:训练目标很简单,但数据规模足够大时,会逼出很多复杂能力。
Scaling Law
大模型不是靠一条神秘规则突然聪明,而是参数规模、训练数据和计算量不断放大后,很多能力从“不稳定”变成“可用”。
规模不是全部,但没有规模,很多能力不会稳定出现。
为什么内存重要
推理时模型权重、KV Cache、上下文 token 都要放进内存。上下文越长,记住前文的缓存越大。
所以“能不能跑大模型/长上下文”,常常先看显存够不够。
06 / 大语言模型的几个时刻
流畅对话、写作、总结、问答成为大众可用能力。
推理模型开始“多想一会儿”:分解、反思、规划、验证。
AI 能读仓库、改文件、跑测试、长时间循环,完成复杂工作。
2023 GPT 时刻
GPT-4 之后,写邮件、总结材料、解释概念、生成代码片段变成了日常入口。它的关键不是“全知”,而是语言交互成本骤降。
以前:人适应软件界面。
现在:软件开始适应人的语言。
2024 o1 时刻
o1 这类模型的标志,是愿意花更多计算做中间推理:反思、规划、自我对话,把复杂问题拆成可理解步骤,再基于事实做 grounded reasoning。
理解问题:哪些条件、目标、约束?
拆步骤:先查事实,再推导,再验证。
反思校验:哪里可能错?证据够不够?
2025 Claude Code 时刻
Claude Code 代表的不是“代码补全更强”,而是 AI 能读项目、运行命令、修改文件、看测试结果,再继续修。它从对话工具变成工作循环。
07 / 为什么不能直接当系统用
没查资料也可能说得很像真的。
训练后的新政策、新代码、新客户状态不知道。
它会说方案,但不能自动访问系统、下单、改文件。
生产动作需要权限、日志、审批、回滚。
RAG 与 Agent
RAG 解决“回答要有依据”;Agent 解决“任务要能执行”。二者经常一起用。
检索知识库、文档、数据库,把相关材料塞进上下文,再让模型回答。
模型根据目标规划步骤,调用工具,观察结果,循环推进直到完成或请求人工。
08 / Agent 原理
模型只能基于当前上下文生成回答;如果缺资料、需要操作系统,它最多“建议你怎么做”。
每一轮 LM 不只是回答,还可以选择工具;工具返回结果后进入上下文,下一轮 LM 基于新证据继续行动。
单次 Agent 调用剖析
“帮我查这个订单为什么超时”。
查订单、查骑手轨迹、查天气/异常。
给原因、证据、下一步建议。
循环调用示例
读需求:要做一份周报,包含销售变化和原因。
查数据:调用报表接口,发现华东区异常下滑。
继续查:拉活动、库存、客诉,定位到缺货。
生成结论:写周报草稿,附证据链接,请人审核。
09 / Skill
插件/MCP 解决“能接什么工具”;Skill 解决“遇到这类任务时,应该怎么做才靠谱”。它把人的经验沉淀成可复用的上下文。
平时只暴露名称和描述;任务命中时才加载 SKILL.md;需要时再打开参考资料或脚本。这就是“经验库 + 渐进加载”。
让 Agent 少从零试错,复用团队已经踩过的坑。
每次任务后把新经验补进 Skill,越用越稳定。
Skill 怎么生产出来
比如:投研、周报、代码发布、客户投诉归因。不是所有事都值得写 Skill,重复且有标准的最值得。
先查什么、用哪些工具、哪些信息源可信、遇到异常怎么判断。
触发条件、步骤、模板、脚本、验收标准;越具体,Agent 越少自由发挥。
每次出错都不是只改 prompt,而是把“坑”和验证方法补回 Skill。
10 / MCP
过去每个工具都要单独写胶水代码。MCP 让客户端和工具服务器用统一协议交换能力:有哪些工具、需要什么参数、返回什么结果。
MCP 能接什么
数据库、知识库、CRM、报表。
发邮件、建工单、改配置、发审批。
Git、终端、CI、日志、代码搜索。
浏览器、GUI、文件系统、剪贴板。
11 / 通用 Agent 工具怎么选
都有模型、上下文、工具调用、任务循环、文件/浏览器/终端等外部环境。
强项可能不同:代码、桌面操作、浏览器自动化、企业集成、权限治理、协作体验。
选工具别只看 demo:看它能不能接你的真实系统,能不能留证据,能不能跑完长任务。
工具选择清单
复杂任务能不能稳。
MCP/API/浏览器/终端是否好接。
长任务中是否会丢信息。
危险动作能否审批。
查了什么、改了什么、失败在哪里。
能不能规模化使用。
12 / 模型怎么选
看表达、结构、事实引用、风格稳定性。
语言质量看复杂问题拆解、反思、 grounded truth、错误率。
推理可靠性看能否读项目、改文件、跑测试、长循环。
任务完成率看成本、延迟、稳定性、上下文、隐私与供应商风险。
TCO评测方法
榜单有用,但不能替代你的业务评测。最好的方法是收集真实失败样本,做小型 benchmark,持续比较模型、prompt、skill、工具链。
13 / 工作中怎么应用
会议纪要、资料总结、日报周报、竞品扫描。
邮件、公告、客服草稿、培训材料。
经营归因、异常解释、指标口径检查。
代码阅读、测试生成、bug 初查、脚本编写。
素材改写、批量分类、工单分流。
制度查询、流程咨询、新人助手。
哪些工作会被替代
输入清楚、输出格式明确、风险低、结果容易验证、重复频率高。
目标模糊、责任重大、涉及人际判断、跨部门博弈、需要真实世界承担后果。
管理者要做的不是问“AI 会不会替代人”,而是拆出哪些任务该先自动化。
落地路线
最后收一下