谷歌 Agent 白皮书
今年 Agent 绝对是一个热词,今天我看到一位咖啡店老板学习了谷歌 Agent 白皮书,还撰写了专栏。我好奇作者申老板眼中的 Agent 是什么样子,要知道他并不是技术人员,他现在也在开一家咖啡店,可以说是一位咖啡师。以下是我对其专栏的学习和对谷歌 Agent 白皮书的研究。
前言:AI 为什么必须变成 Agent?
前言主要讲了 AI 调用工具扩展自己的能力是发展必然。作者用咖啡店补货,说明实体店需要的是能自主识别、规划、(调用工具)行动的 AI,即 Agent。AI 开始是自己玩,提供在线聊天互动 -> 接着是通过 MCP 协议可以调用其它在线系统,可以调用的被统称为工具,例如浏览器、文件读取、终端(Grep)、数据库存取等 -> 接着是有了感官,开始接触现实世界,直接从现实中获取信息,不过这恐怕要等到 2032 年 Optimus 发布。
第二章:什么是 Agent?
这一章讲了 Agent 的内部结构。
什么是 Agent,一言以概之,它是可以自主行动的最小 AI 单元,是一个可以更新自身的独立智能模块。具有「觉察 -> 判断 -> 规划 -> 行动 -> 自省 -> 记忆」这样一个完整的生命周期。
从内部组成结构上有三部分:Model(模型)、Tools(工具)、Orchestration(编排)。模型指是原来就负责聊天的大脑,并且白皮书也指出模型并不会为 Agent 作单独的训练,模型对 Agent 来说是通用的。Tools 是 Agent 可以调用的本地能力,例如浏览器、文件系统、终端等。Orchestration 翻译为编排挺合适的,像音乐指挥家,指挥乐队完成乐曲合奏。在 Orchestration 也有三部分:一、Profile、Goals、Instructions;二、Memory,记忆又分为短期记忆和长期记忆,分别对应短期目标、长期目标,短期指令、长期规则;三、模型推理和计划层,这一层又包括 ReAct、CoT、ToT,这三个缩写对应的是三种思考模式。
展开来讲内部结构,第一部分 Profile,应该翻译为档案,翻译为简介是不合适的。前者更突出为数值对、数据库等,后者偏向介绍。Goals 一般翻译为目标,没有异议,但这个目标也是加 s 的,有多种目标,短期目标、长期目标、临时目标等。Instructions 这个单词应该翻译为指令,而不是说明或说明书。推理层的三种思考方式,看起来很复杂,其实是纸老虎,其中 ReAct,是 Reason & Action,是边推理边做边觉察,它是用行动反馈调整行动路线,是 Agent 最有效的行动方式,应该也是 Agent 模式最重要的思考模型;CoT 是 Chain of Thoughts 的缩写,是链式思考,链推理长了就往往产生不切实际的幻想;ToT 是 Tree of Thoughts 缩写,是树状发散思考,是规划出多条路径,CoT 和 ToT 应该是 Plan(计划)模式的思考模型。除了 Agent、Plan,我们在 AI IDE 中还能看到一个 Chat 模式,它是什么?它就是原来的聊天模式啊,本质上与浏览器里聊天没有区别,只是在这里多了一些约束,显得专业了一些。
现在 AI IDE 其实是提示语编程专用的 Agent IDE,以后所有行业都会有自己专用的 IDE。当然了,现在的 AI IDE 其实专业性还不是特别特别强,用它们做专业的事貌似也是可以的。专业智能体的思考模型,思考周期除了工具不同、知识库不同,其它都是相似的。
第三章:Tools(工具)是我们通往(触达)外界的钥匙
这一章主要介绍了工具和数据如何为 Agent 所用。现实生活中的工具再多,也不能直接为 AI 所用,我们人类也是,看到载人工具想驾驶,至少要了解一些东西,汽车可以一看就懂,飞机可能还需要培训两三个月。
为了能让 AI 使用工具,人类在中间包装了一层:Extensions,这个词翻译为扩展可能更适合,它的作用就是包装工具,让 AI 知道调用工具,如何理解工具的输出。由于工具千差万别,扩展也是一对一的,一个工具对应一个扩展,可用扩展越多,Agent 能力越强。
还有一个很重要的东西 Data Stores,可以翻译为数据存储,Agent 之所以可以针对特定专业领域做事,就是因为有了专业领域的数据。但是 AI 阅读和使用的数据,与我们人类使用的还不同,需要将我们阅读使用的数据转成向量存储在 Vector DB(向量数据库)中,Vector DB 可以理解为 Data Stores 的一部分。在本地,使用 AI IDE 时,这个 Data Stores 很多是以文档的形式存在的。AI 对这些数据也能查询,它不是有 long-term 的长久记忆吗,我怀疑它查询好了,存储进长久记忆了。这就凸显出人与 Agent 的区别了,记忆力再好的人类也比不上 Agent 的长久记忆。话说知识库管理软件对于每个人来说一定是需要的,但观察目前的笔记软件,貌似还没有一个做得出色的。(听说 NotebookLM 很优秀,有时间需要体验下。)
第四章:努力让智能体(agent)落地
这一章是最最重要的内容,前面讲的是原理,是机制,这一章讲实操要领。谷歌说的实操,是从有模型开始的实操,并不是我们从一个 AI IDE 出发的实操。
这一步有三段路:一、Targeted Learning(目标引导式训练);二、LangChain(可控模型搭建);三、Vertex AI Agents(生产部署,然后观察、微调、扩展)。我个人理解,Targeted Learning 是准备工具扩展和数据知识,让 AI 学会使用自己的工具,让 AI 学习自己应该掌握的领域知识;LangChain 属于工程实操,非工程师可以跳过,有搭建好的可用;Vertex AI Agents 是线上编排训练。这三步里最后一步应该是最重要的,即如何让 AI 完成一个进化生命周期(觉察 -> 判断 -> 规划 -> 行动 -> 自省 -> 记忆),要不断调整优化 Profile(档案)、Instructions(指令)等,最重要的,是让 Agent 学习编排,学习如何运用三种思考模式把任务完成得更好。
其中在 Targeted Learning 阶段,我们不仅要准备理论知识,还要准备示例和结果,有示例有结果导向,这是训练 AI 学习最快的方式。在 Vertex AI Agents 阶段,这应该是最重要的,Vertex 这个词原意是计算机顶点,翻译为中文支点可能最合适,最后一步就是支起我们搭建的 AI Agent,让它开始自我进化、自我学习,因为 AI Agent 本质上就是一个越学习越聪明越能干的智能体。
第五章:总结
这部分是对前几章的总结。一个成熟的 Agent,就是一个成熟的员工;多个 Agent,就是一个强大的团队。
实践:开咖啡店指南
这一篇是作者自己撰写的,想把 Agent 变成一个咖啡店店长。如果有这个 Agent,他就可以做董事长了,开更多的店。这和我用 Agent 写软件、搞创作是一样的,写代码时 Agent 是一名工程师,搞创作时 Agent 是一名小说作家。
📅 2025 年 12 月 10 日周三
该文由 rustpress 编译。
评论