↑ ↓ / Space 切换
AI TECH BRIEFING

从机器学习到 Agent

一场面向核心管理者的 AI 技术分享:保留关键技术术语,但用可以被业务领导理解的方式解释它们。

Machine LearningDeep LearningTransformerLLMRAGAgent
Core thesis

AI 的本质不是“机器会思考”,而是用数据训练出可泛化的函数,再把这个函数接入工具、知识和流程。

理解这条主线,就能判断什么是泡沫,什么会真正改变组织。

From rules to learning

传统软件写规则;机器学习学参数

传统程序是 rules + data → answer。机器学习反过来:给它大量 data + answer,让它学习一组可复用的 parameters

传统软件:
规则 + 输入 → 输出

机器学习:
输入 + 输出 → 学到规则/参数
Supervised learning

机器学习的最小闭环:预测、损失、优化

01

Dataset

有标注的历史样本。

02

Prediction

模型先给一个预测。

03

Loss Function

衡量预测和真实答案差多远。

04

Gradient Descent

沿着让错误变小的方向更新参数。

05

Generalization

在新样本上也能做对。

Deep learning

深度学习:多层神经网络学习层级表示

所谓“深”,不是神秘,而是网络有很多层。底层学简单模式,中层组合模式,高层学习抽象概念。

Representation Learning

  • 图像:边缘 → 纹理 → 物体
  • 语言:字符/词片段 → 语法 → 语义/意图
  • 业务数据:事件 → 行为模式 → 风险/机会
Embedding

Embedding:把意义映射到向量空间

语义相近

“退款”“退钱”“refund”在向量空间里距离更近。

跨语言

不同语言表达可以被映射到相似位置。

可检索

RAG 和语义搜索都依赖 embedding 做相似度匹配。

关键词:embeddingvector spacecosine similarity

Transformer

Transformer 的突破:Attention 让模型知道“该看哪里”

Self-Attention 会为上下文中的每个 token 分配权重:哪些词重要,哪些词之间有关联。

为什么重要?

  • 能处理长上下文,而不是只看附近几个词
  • 能并行训练,适合大规模算力
  • 能捕捉复杂依赖:指代、因果、约束、目标
Large Language Model

大语言模型:用海量文本训练的 next-token predictor

LLM 的训练目标通常很简单:给定上下文,预测下一个 token。但为了预测得好,它必须学习语法、知识、推理模式和表达风格。

Theorderisdelayedbecause?

模型输出的是概率分布,不是确定真理。

Pretraining → Instruction tuning → RLHF

大模型不是只“预训练”一次就结束

Pretraining

从互联网、书籍、代码等大规模语料中学习通用能力。

Instruction Tuning

用问答、任务指令和示范答案,让模型学会“按要求做事”。

RLHF / RLAIF

通过人类或 AI 偏好反馈,让输出更有帮助、更安全、更符合预期。

Emergent capability

规模带来能力,但也带来成本和不确定性

参数量、数据量、算力共同推动能力提升;但模型越大,不代表每个业务场景都越划算。

评估模型要看四件事

  • Capability:准确率、推理、工具使用
  • Latency:响应速度和高峰稳定性
  • Cost:token 成本和并发成本
  • Control:安全、审计、可解释、可回滚
Hallucination

幻觉不是 bug,而是生成式模型的固有风险

原因

模型在生成“高概率文本”,不是直接查事实库。

表现

编造来源、混淆政策、过度自信、忽略边界条件。

治理

RAG、引用、验证器、权限控制、人审和日志。

所以 AI 系统设计的重点不是“让模型永远不犯错”,而是让错误可发现、可纠正、可追责。

RAG

RAG:把模型的语言能力和企业知识连接起来

Retrieval-Augmented Generation 的核心是:先从可信知识库检索,再把检索结果放进上下文,让模型基于证据回答。

01

Query

用户问题

02

Retrieve

向量/关键词检索

03

Rerank

排序与过滤

04

Generate

带引用生成

05

Evaluate

质量反馈

Context window

上下文窗口:模型的“短期工作记忆”

Prompt

我们给模型的任务说明、背景和约束。

Context

模型当前能看到的材料,包括历史对话、文档、工具结果。

Attention Budget

上下文越长,不代表注意力越均匀;关键信息仍要结构化。

Agent

Agent:LLM + Tools + Memory + Policy

LLM 本身只会生成文本;Agent 把它接到工具、记忆、权限和任务状态上,让它能多步完成工作。

Agent
Loop
Plan
分解任务
Act
调用工具/API
Observe
读取结果
Reflect
校验与重试
Tool use

工具调用让模型从“会说”变成“会做”

Search

查最新信息。

Database

读取结构化事实。

API

执行真实动作。

Verifier

检查输出是否达标。

关键原则:高风险工具必须有权限、审批、dry-run、日志和回滚。

Workflow

好的 Agent 系统,不是“多个模型聊天”

它更像一个可审计的工作流系统:任务、状态、工具调用、证据、失败原因都要留下来。

Agent Run 应该留下什么?

  • 输入:任务目标、上下文、权限
  • 过程:调用了哪些工具,返回了什么
  • 输出:结论、产物、引用、置信度
  • 验证:测试结果、人工审查、失败日志
AI-native work

未来的工作变化:从执行任务到管理智能执行系统

个人层

从“写每一段内容”转向定义目标、审查结果、补充上下文。

团队层

从经验分散在个人脑中,转向知识库、评测集和流程沉淀。

管理层

从盯执行进度,转向设计目标函数、风险边界和质量闭环。

A light touch on business

业务落地只需要记住一个原则:先副驾驶,后自动驾驶

低风险

总结、翻译、知识问答、会议纪要、培训材料。

中风险

方案建议、异常归因、运营复盘、客服分流。

高风险

涉及钱、用户权益、规则处罚、预算动作时,需要审批和回滚。

这里可以自然带到 Keeta:跨语言、跨时区、跨规则的业务,会优先受益于“知识一致性”和“任务自动化”。

Takeaway

真正重要的不是“哪个模型最强”,而是我们能不能把模型能力接入知识、工具、流程和治理,变成可靠的组织能力。

ModelKnowledgeToolWorkflowGovernance