首页 公告中心 AI Agents的七大启示:研究与应用

AI Agents的七大启示:研究与应用

发布于:2026-04-25 17:17
火币 HTX 官方发布

翻译:白话区块链

image.png

近年来,代理(Agent)的概念在哲学、游戏和人工智能等多个领域的重要性日益凸显。从传统意义上看,代理指的是一个实体能够自主行动、做出选择并具有意图性,这些特质通常与人类联系在一起。

而在人工智能领域,代理的内涵变得更加复杂。随着自主代理的出现,这些代理能够在环境中进行观察、学习并独立行动,使得过去抽象的代理概念被赋予了计算系统的具体形式。这些代理几乎无需人为干预,展现出一种虽非意识却具备计算性意图的能力,能够做出决策、从经验中学习,并以越来越复杂的方式与其他代理或人类互动。

本文将探讨自主代理这一新兴领域,特别是基于大型语言模型(LLM)的代理及其在游戏、治理、科学、机器人等不同领域的影响。在探讨代理基本原则的基础上,本文将分析人工智能代理的架构与应用。通过这种分类视角,我们能够深入了解这些代理如何执行任务、处理信息并在其特定的操作框架中不断发展。

本文的目标包括以下两个方面:

注:由于文章篇幅问题,本文编译对原文有删减。

 

1、代理研究趋势

基于大型语言模型(LLM)的代理发展标志着人工智能研究的重大进展,涵盖了符号推理、反应式系统、强化学习到自适应学习的多重进步。

符号代理:通过规则和结构化知识模拟人类推理,适用于特定问题(如医疗诊断),但难以应对复杂、不确定环境。

反应式代理:通过“感知-行动”循环快速响应环境,适合快速交互场景,但无法完成复杂任务。

强化学习代理:通过试错学习优化行为,广泛应用于游戏和机器人,但训练时间长,样本效率低,稳定性差。

基于LLM的代理:LLM代理结合符号推理、反馈和自适应学习,具有少样本和零样本学习能力,广泛应用于软件开发、科学研究等领域,适合动态环境并能与其他代理协作。

 

2、代理架构

现代代理架构包括多个模块,形成综合系统。

1)档案模块

档案模块决定代理行为,通过分配角色或个性来确保一致性,适用于需要稳定个性的场景。LLM代理的档案分为三类:人口学角色、虚拟角色和个性化角色。

image.png

摘自《从角色到个性化》论文

角色对性能的提升角色设定可显著提升代理的表现和推理能力。例如,LLM作为专家时回应更深入、符合语境。在多代理系统中,角色匹配促进协作,提升任务完成率和互动质量。

档案创建方法LLM代理档案可通过以下方式构建:

2)记忆模块

记忆是LLM代理的核心,支持适应性规划与决策。记忆结构模拟人类过程,主要分为两类:

统一记忆:短期记忆,处理最近的信息。通过文本截取、记忆总结和修改注意力机制优化,但受上下文窗口限制。

混合记忆:结合短期与长期记忆,长期记忆存储在外部数据库中,便于高效回忆。

记忆格式常见的记忆存储格式包括:

记忆操作代理通过以下操作与记忆交互:

image.png

基于《Generative Agents》论文的内容

研究意义与挑战

尽管记忆系统提升了智能体能力,但也带来研究挑战:

3)感知能力

LLM智能体通过处理多样化的数据源提升对环境的理解与决策能力,类似于人类依赖感官输入。多模态感知整合文本、视觉和听觉等输入,增强智能体执行复杂任务的能力。以下是主要输入类型及其应用:

多模态感知的研究挑战与考量:

4)推理与规划

推理与规划模块帮助智能体通过分解复杂任务高效解决问题。类似人类,它能制定结构化计划,既可以预先构建完整计划,也能根据反馈实时调整策略。规划方法按反馈类型分类:

没有反馈的规划在无反馈情况下,智能体从一开始就制定完整计划并执行,不调整。包括单路径规划(按步骤执行)和多路径规划(同时探索多个选项,选择最佳路径)。

单路径推理任务分解为顺序步骤,每一步接着下一步:

image.png

来自CoT论文

5)多路径推理

与单路径推理不同,多路径推理允许智能体同时探索多个步骤,生成并评估多个潜在解决方案,从中选择最佳路径,适用于复杂问题,尤其在多种可能途径的情况下。

示例:

6)外部规划器

当LLM面对特定领域的规划挑战时,外部规划器提供支持,整合LLM缺乏的专业知识。

有反馈的规划有反馈的规划使代理根据环境变化实时调整任务,适应不可预测或复杂的场景。

环境反馈代理与环境交互时,根据实时反馈调整计划,保持任务进度。

image.png

来自《ReAct》论文

7)人工反馈

通过与人类互动,帮助代理与人类价值观对齐,避免错误。示例:

模型反馈来自预训练模型的反馈帮助代理自我检查并优化推理与行动。示例:

image.png

来自《SelfCheck》论文

推理与规划中的挑战与研究方向尽管推理与规划模块提升了智能体功能,但仍面临挑战:

8)行动

行动模块是智能体决策过程的最后阶段,包括:

image.png

数据库与知识库:ChatDB使用SQL查询来检索领域特定的信息,而MRKL将专家系统和规划工具整合用于复杂的推理。

image.png

外部模型:代理可能依赖非API模型执行专门任务。例如,ChemCrow通过多个模型进行药物发现,MemoryBank通过两个模型增强文本检索。

行动影响:行动根据结果可分为:

扩展行动空间:设计AI代理需要强大架构和任务技能。能力获取有两种方式:微调和不微调。

微调获取能力

无微调能力获取在微调不可行时,代理可通过提示工程和机制工程提升能力。

提示工程通过设计提示引导LLM行为,提高性能。

机制工程通过专门规则和机制增强代理能力。

经验积累

自驱进化

image.png

来自《Voyager》论文

微调能显著提升任务特定的性能,但需要开源模型且资源消耗较大。提示工程和机制工程适用于开源和闭源模型,但受到输入上下文窗口的限制,且需要精心设计。

 

3、涉及多个智能体(agents)的系统架构

image.png

多智能体架构将任务分配给多个智能体,各自专注不同方面,提升鲁棒性和适应性。智能体间的协作和反馈增强整体执行效果,并可根据需求动态调整智能体数量。然而,这种架构面临协调挑战,沟通至关重要,避免信息丢失或误解。

为促进智能体间的沟通与协调,研究关注两种组织结构:

image.png

来自《ChatDev》论文

1)混合组织结构

DyLAN将垂直和水平结构结合成混合方法,代理在同层内水平协作,并跨时间步交换信息。DyLAN引入排名模型和代理重要性评分系统,动态评估并选择最相关的代理继续协作,表现不佳的代理被停用,形成层级结构。高排名代理在任务和团队构成中起关键作用。

合作型多代理框架通过共享信息和协调行动,聚焦各代理优势,实现互补合作以最大化效率。

image.png

来自《Agentverse》论文

合作互动分为两种类型:

无序合作:多个代理自由互动,未按固定顺序或流程,类似头脑风暴。每个代理提供反馈,系统通过协调代理整合输入并组织响应,避免混乱,通常使用多数投票机制达成共识。

有序合作:代理按顺序互动,遵循结构化流程,每个代理关注前一个代理的输出,确保高效沟通。任务快速完成,避免混乱,但需要通过交叉验证或人工干预防止放大错误。

image.png

来自MetaGPT论文

对抗性多智能体框架合作性框架提升效率和协作,而对抗性框架通过挑战推动智能体进化。受博弈论启发,对抗性交互鼓励智能体通过反馈和反思改进行为。例如,AlphaGo Zero通过自我对弈改进策略,LLM系统通过辩论和“以牙还牙”交换提高输出质量。尽管这种方法促进智能体适应性,但也带来计算开销和错误风险。

涌现行为在多智能体系统中,可能出现三种涌现行为:

基准测试与评估基准测试是评估智能体表现的关键工具,常用平台包括ALFWorld、IGLU和Minecraft等,用于测试智能体在规划、协作和任务执行方面的能力。同时,工具使用和社交能力的评估也十分重要,平台如ToolBench和SocKET分别评估智能体的适应能力与社交理解。

应用数字游戏成为AI研究的重要平台,基于LLM的游戏智能体注重认知能力,推动AGI研究。

image.png

来自《基于大语言模型的游戏智能体调查》论文

游戏中的智能体感知在视频游戏中,智能体通过感知模块理解游戏状态,主要方法有三种:

  1. 状态变量访问:通过游戏API访问符号数据,适用于视觉要求较低的游戏。

  2. 外部视觉编码器:使用视觉编码器将图像转为文本,如CLIP,帮助智能体理解环境。

  3. 多模态语言模型:结合视觉和文本数据,增强智能体的适应性,如GPT-4V。

游戏智能体案例研究

image.png

PokéLLMon(竞技游戏)竞技游戏因其严格规则和可与人类玩家比较的胜率,成为推理和规划性能的基准。多个智能体框架已展示出竞技表现。比如,《大型语言模型玩《星际争霸2》:基准与链式总结方法》中的LLM智能体与内建AI进行文本版《星际争霸2》对战。 PokéLLMon 是首个实现人类水平表现的LLM智能体,在《宝可梦》战术游戏中获得49%排位赛胜率和56%邀请赛胜率。该框架通过增强知识生成与一致性动作生成,避免幻觉和链式思维中的恐慌循环。智能体将战斗服务器的状态日志转化为文本,确保回合连贯性并支持基于记忆的推理。

image.png

智能体通过四种反馈强化学习,包括HP变化、技能效果、行动顺序的速度估算、以及技能状态效果,以优化策略并避免循环使用无效技能。

PokéLLMon 利用外部资源(如 Bulbapedia)获取知识,如类型克制和技能效果,帮助智能体更精准地使用特殊技能。此外,通过评估 CoT、Self-Consistency 和 ToT 方法,发现 Self-Consistency 显著提升胜率。

ProAgent(合作游戏)合作游戏需要理解队友意图并预测行动,通过显式或隐式合作完成任务。显式合作效率高但灵活性较低,隐式合作则依靠预测队友策略进行适应性互动。 在《Overcooked》中,ProAgent 展示了隐式合作的能力,其核心流程分五步:

  1. 知识收集与状态转换:提取任务相关知识并生成语言描述。

  2. 技能规划:推测队友意图并制定行动方案。

  3. 信念修正:动态更新对队友行为的理解,减少错误。

  4. 技能验证与执行:迭代调整计划以确保行动有效。

  5. 记忆存储:记录互动与结果以优化未来决策。

其中,信念修正机制尤为关键,确保智能体随着互动更新理解,提高情境感知和决策准确性。

image.png

ProAgent 超越了五种自我对弈和基于人群的训练方法。

2)生成型智能体(模拟)

虚拟角色如何体现人类行为的深度和复杂性?尽管早期AI系统如SHRDLU和ELIZA尝试自然语言交互,基于规则的方法和强化学习也在游戏中取得进展,但它们在一致性和开放互动上存在局限。如今,结合LLM与多层架构的智能体突破了这些限制,具备存储记忆、反思事件并适应变化的能力。研究表明,这些智能体不仅能模拟真实人类行为,还展现了传播信息、建立社交关系和协调行为的突现能力,推动虚拟角色更加逼真。

image.png

来自《大规模语言模型智能体的崛起与潜力:一项调查》

架构概述: 该架构结合感知、记忆检索、反思、规划与反应。智能体通过记忆模块处理自然语言观察,根据时效性、重要性和情境相关性评估并检索信息,同时生成基于过去记忆的反思,提供关系和计划的深刻洞察。推理和规划模块则类似于计划-行动循环。

模拟结果: 研究模拟了情人节派对和市长选举的信息传播,两天内市长候选人知晓度从4%增至32%,派对知晓度从4%升至52%,虚假信息占比仅1.3%。智能体通过自发协调组织派对,形成新社交网络,密度从0.167增至0.74。模拟展示了无需外部干预的信息共享和社交协调机制,为未来社会科学实验提供参考。

Voyager(制作与探索): 在Minecraft中,智能体可执行制作任务或自主探索。制作任务依赖LLM规划和任务分解,而自主探索通过课程学习识别任务,LLM生成目标。Voyager是具身终身学习智能体,结合自动课程、技能库和反馈机制,展现了探索与学习的潜力。

image.png

自动课程利用LLM生成与智能体状态和探索进度相关的目标,使任务逐步复杂化。智能体生成模块化代码执行任务,并通过链式思维提示反馈结果,必要时修改代码。成功后,代码存储于技能库以备后用。

Voyager框架显著提升了技术树解锁效率,木材、石材和铁的解锁速度分别快15.3倍、8.5倍和6.4倍,并成为唯一解锁钻石的框架。其探索距离比基准长2.3倍,发现新物品多3.3倍,展现了卓越的终身学习能力。

image.png

 

4、游戏领域的潜在应用

1)代理驱动的游戏玩法

2)AI增强的NPC与虚拟世界

3)动态叙事与玩家支持

4)教育与创造

5)加密与金融领域

代理通过区块链自主操作钱包、交易与交互DeFi协议。

这些技术为代理的自主链上交互与加密生态应用带来新机遇。

 

5、区块链领域的代理应用

1)验证性代理推理

链下验证是区块链研究的热点,主要应用于高复杂度计算。研究方向包括零知识证明、乐观验证、可信执行环境(TEE)以及加密经济博弈论。

2)密码学代理协作

分布式节点系统可运行多代理系统并达成共识。

3)Eliza框架

由a16z开发,专为区块链设计的开源多代理框架,支持个性化智能代理创建与管理。

4)其他代理应用

 

6、近期动态与展望多个项目正在探索区块链与 AI 的结合点,应用领域丰富。后续将专门讨论链上 AI 代理。

1)预测能力预测是决策关键。传统预测分为统计和判断预测,后者依赖专家,成本高且慢。

2)角色扮演(Roleplay)

LLMs 在角色扮演领域表现出色,结合社会智能和记忆机制,能模拟复杂交互。

这些技术推动了 AI 在社交模拟和个性化互动等领域的应用拓展。

image.png

摘自《Character-LLM》论文

RPLA(Role-Playing Language Agent角色扮演语言智能体 )的应用

以下是部分RPLA应用的简要列表:

 

7、AI对齐问题

评估LLM是否符合人类价值观是一项复杂任务,因实际应用场景的多样性与开放性而充满挑战。设计全面对齐测试需投入大量精力,但现有的静态测试数据集难以及时反映新兴问题。

目前,AI对齐多通过外部人工监督完成,例如OpenAI的RLHF(基于人类反馈的强化学习)方法,该过程耗时6个月,耗费大量资源以实现GPT-4的对齐优化。

也有研究尝试减少人工监督,利用更大的LLM进行审查,但新的方向是借助代理框架分析模型的对齐情况。例如:

1)ALI-Agent框架

2)MATRIX方法

image.png

  摘自《MATRIX论文》

关于代理AI对齐的研究还有很多,可能值得单独写一篇文章。

治理与组织 组织依赖标准操作程序(SOP)来协调任务和分配责任。例如,软件公司中的产品经理使用SOP分析市场和用户需求,并制定产品需求文档(PRD)来指导开发过程。这种结构适用于多代理框架,如MetaGPT,其中代理角色明确,具备相关工具和规划能力,且通过反馈优化表现。

机器人技术 基于代理的架构提升了机器人在复杂任务规划和自适应交互中的表现。语言条件下的机器人政策帮助机器人理解环境,并根据任务需求生成可执行的行动序列。

架构框架 LLM与经典规划结合,能有效解析自然语言命令并转化为可执行的任务序列。SayCan框架结合强化学习和能力规划,使机器人能够在现实中执行任务,确保指令的可行性和适应性。Inner Monologue进一步提升了机器人的适应性,通过反馈调整行动实现自我修正。

示例框架 SayCan框架使机器人在面对自然语言指令时,能评估和执行任务(如从桌子上取饮料)并确保与实际能力匹配。

SayPlan:SayPlan通过使用3DSGs高效规划多房间任务,保持空间上下文感知并验证计划,确保广泛空间中的任务执行。

Inner Monologue:该框架通过实时反馈优化执行,适应环境变化,适用于厨房任务和桌面重排等应用。

RoCo:一种零-shot多机器人协作方法,结合自然语言推理和运动规划,生成子任务计划并通过环境验证优化,确保可行性。

科学 《Empowering Biomedical Discovery with AI Agents》提出了多代理框架,结合工具和专家,支持科学发现。文章介绍了五种协作方案:

文章还讨论了AI代理的自主性级别:

image.png

Level 2:在Level 2阶段,AI代理与科学家合作完善假设,执行假设测试并使用工具进行科学发现。Coscientist 是一个基于多个LLM的智能代理,能自主规划、设计并执行复杂实验,利用工具如互联网、API和与其他LLM的协作,甚至直接控制硬件。其能力体现在化学合成规划、硬件文档查找、高阶命令执行、液体处理、复杂科学问题解决等六个方面。

Level 3:在Level 3阶段,AI代理能超越现有研究范围,推测出新的假设。尽管这一阶段尚未实现,但通过优化自身工作,可能会加速AI发展的进程。

 

8、小结:AI 代理的未来

AI代理正在改变智能的概念与应用,重塑决策和自主性。它们在科学发现、治理框架等领域成为活跃参与者,不仅是工具,也是协作伙伴。随着技术进步,我们需要重新思考如何平衡这些代理的力量与潜在的伦理和社会问题,确保其影响是可控的,推动技术发展并减少风险。

 

 

返回公告列表