谷歌 Agent 白皮书

今年 Agent 绝对是一个热词，今天我看到一位咖啡店老板学习了谷歌 Agent 白皮书，还撰写了专栏。我好奇作者申老板眼中的 Agent 是什么样子，要知道他并不是技术人员，他现在也在开一家咖啡店，可以说是一位咖啡师。以下是我对其专栏的学习和对谷歌 Agent 白皮书的研究。

前言：AI 为什么必须变成 Agent？

前言主要讲了 AI 调用工具扩展自己的能力是发展必然。作者用咖啡店补货，说明实体店需要的是能自主识别、规划、（调用工具）行动的 AI，即 Agent。AI 开始是自己玩，提供在线聊天互动 -> 接着是通过 MCP 协议可以调用其它在线系统，可以调用的被统称为工具，例如浏览器、文件读取、终端（Grep）、数据库存取等 -> 接着是有了感官，开始接触现实世界，直接从现实中获取信息，不过这恐怕要等到 2032 年 Optimus 发布。

第二章：什么是 Agent？

这一章讲了 Agent 的内部结构。

什么是 Agent，一言以概之，它是可以自主行动的最小 AI 单元，是一个可以更新自身的独立智能模块。具有「觉察 -> 判断 -> 规划 -> 行动 -> 自省 -> 记忆」这样一个完整的生命周期。

从内部组成结构上有三部分：Model（模型）、Tools（工具）、Orchestration（编排）。模型指是原来就负责聊天的大脑，并且白皮书也指出模型并不会为 Agent 作单独的训练，模型对 Agent 来说是通用的。Tools 是 Agent 可以调用的本地能力，例如浏览器、文件系统、终端等。Orchestration 翻译为编排挺合适的，像音乐指挥家，指挥乐队完成乐曲合奏。在 Orchestration 也有三部分：一、Profile、Goals、Instructions；二、Memory，记忆又分为短期记忆和长期记忆，分别对应短期目标、长期目标，短期指令、长期规则；三、模型推理和计划层，这一层又包括 ReAct、CoT、ToT，这三个缩写对应的是三种思考模式。

展开来讲内部结构，第一部分 Profile，应该翻译为档案，翻译为简介是不合适的。前者更突出为数值对、数据库等，后者偏向介绍。Goals 一般翻译为目标，没有异议，但这个目标也是加 s 的，有多种目标，短期目标、长期目标、临时目标等。Instructions 这个单词应该翻译为指令，而不是说明或说明书。推理层的三种思考方式，看起来很复杂，其实是纸老虎，其中 ReAct，是 Reason & Action，是边推理边做边觉察，它是用行动反馈调整行动路线，是 Agent 最有效的行动方式，应该也是 Agent 模式最重要的思考模型；CoT 是 Chain of Thoughts 的缩写，是链式思考，链推理长了就往往产生不切实际的幻想；ToT 是 Tree of Thoughts 缩写，是树状发散思考，是规划出多条路径，CoT 和 ToT 应该是 Plan（计划）模式的思考模型。除了 Agent、Plan，我们在 AI IDE 中还能看到一个 Chat 模式，它是什么？它就是原来的聊天模式啊，本质上与浏览器里聊天没有区别，只是在这里多了一些约束，显得专业了一些。

现在 AI IDE 其实是提示语编程专用的 Agent IDE，以后所有行业都会有自己专用的 IDE。当然了，现在的 AI IDE 其实专业性还不是特别特别强，用它们做专业的事貌似也是可以的。专业智能体的思考模型，思考周期除了工具不同、知识库不同，其它都是相似的。

第三章：Tools（工具）是我们通往（触达）外界的钥匙

这一章主要介绍了工具和数据如何为 Agent 所用。现实生活中的工具再多，也不能直接为 AI 所用，我们人类也是，看到载人工具想驾驶，至少要了解一些东西，汽车可以一看就懂，飞机可能还需要培训两三个月。

为了能让 AI 使用工具，人类在中间包装了一层：Extensions，这个词翻译为扩展可能更适合，它的作用就是包装工具，让 AI 知道调用工具，如何理解工具的输出。由于工具千差万别，扩展也是一对一的，一个工具对应一个扩展，可用扩展越多，Agent 能力越强。

还有一个很重要的东西 Data Stores，可以翻译为数据存储，Agent 之所以可以针对特定专业领域做事，就是因为有了专业领域的数据。但是 AI 阅读和使用的数据，与我们人类使用的还不同，需要将我们阅读使用的数据转成向量存储在 Vector DB（向量数据库）中，Vector DB 可以理解为 Data Stores 的一部分。在本地，使用 AI IDE 时，这个 Data Stores 很多是以文档的形式存在的。AI 对这些数据也能查询，它不是有 long-term 的长久记忆吗，我怀疑它查询好了，存储进长久记忆了。这就凸显出人与 Agent 的区别了，记忆力再好的人类也比不上 Agent 的长久记忆。话说知识库管理软件对于每个人来说一定是需要的，但观察目前的笔记软件，貌似还没有一个做得出色的。（听说 NotebookLM 很优秀，有时间需要体验下。）

第四章：努力让智能体（agent）落地

这一章是最最重要的内容，前面讲的是原理，是机制，这一章讲实操要领。谷歌说的实操，是从有模型开始的实操，并不是我们从一个 AI IDE 出发的实操。

这一步有三段路：一、Targeted Learning（目标引导式训练）；二、LangChain（可控模型搭建）；三、Vertex AI Agents（生产部署，然后观察、微调、扩展）。我个人理解，Targeted Learning 是准备工具扩展和数据知识，让 AI 学会使用自己的工具，让 AI 学习自己应该掌握的领域知识；LangChain 属于工程实操，非工程师可以跳过，有搭建好的可用；Vertex AI Agents 是线上编排训练。这三步里最后一步应该是最重要的，即如何让 AI 完成一个进化生命周期（觉察 -> 判断 -> 规划 -> 行动 -> 自省 -> 记忆），要不断调整优化 Profile（档案）、Instructions（指令）等，最重要的，是让 Agent 学习编排，学习如何运用三种思考模式把任务完成得更好。

其中在 Targeted Learning 阶段，我们不仅要准备理论知识，还要准备示例和结果，有示例有结果导向，这是训练 AI 学习最快的方式。在 Vertex AI Agents 阶段，这应该是最重要的，Vertex 这个词原意是计算机顶点，翻译为中文支点可能最合适，最后一步就是支起我们搭建的 AI Agent，让它开始自我进化、自我学习，因为 AI Agent 本质上就是一个越学习越聪明越能干的智能体。

第五章：总结

这部分是对前几章的总结。一个成熟的 Agent，就是一个成熟的员工；多个 Agent，就是一个强大的团队。

实践：开咖啡店指南

这一篇是作者自己撰写的，想把 Agent 变成一个咖啡店店长。如果有这个 Agent，他就可以做董事长了，开更多的店。这和我用 Agent 写软件、搞创作是一样的，写代码时 Agent 是一名工程师，搞创作时 Agent 是一名小说作家。

📅 2025 年 12 月 10 日周三

该文由 rustpress 编译。

谷歌 Agent 白皮书

谷歌 Agent 白皮书

版权所有

分享这篇文章

评论

目录

微信小游戏开发