深入浅出解读智能体技术

作者:中国科学院计算机网络信息中心 严晓云 责任编辑:王鹤迦 2025.12.30 12:37 来源:通信世界网

通信世界网消息(CWW)什么是智能体?在3GPP 6G需求研究项目定义中,智能体是指一种自动化的智能实体,它代表另一个实体通过与环境交互、获取上下文信息、推理、自我学习、决策以及执行任务(独立或与其他智能体协作),实现特定目标(无论是否自主)。

智能体的大脑

当前,被广泛应用并纳入3GPP讨论范畴的智能体主要是以大语言模型为大脑中枢(LLM大脑)的智能体。未来,也可能出现基于视觉大模型或者世界模型的智能体。

基于LLM大脑的智能体在以下五个方面能够发挥关键智能作用。

一是任务规划与分解。用户请求“帮我计划一次周末短途旅行”,LLM大脑将其分解为“确定目的地和预算—搜索交通和住宿信息—生成旅行日程—订票预订行程”四步。

二是工具选择与调用。在搜索交通和住宿信息时,LLM大脑借助工具箱并通过调用携程、飞猪进行交通和住宿信息的搜索,形成候选的交通方式、酒店以及价格信息。

三是逻辑推理与决策。在智能体尝试调用订票工具失败,收到“无可用座位”信息时,LLM大脑判定原计划不可行,则决策尝试搜索不同日期的同一目的地或更换交通工具(如改订火车票)。

四是记忆与上下文管理。用户的任务目标设定为“我的预算是5000元”。LLM大脑将“5000元”以及前面步骤获取的交通方式、酒店以及价格信息作为长期、短期记忆信息,在后续规划旅行行程时,自动回顾并利用这个预算信息来筛选推荐选项。

五是环境感知与理解。任务目标是“帮我计划一次周末短途旅行”,LLM大脑会调用天气检查工具,检查可选旅游目的地的天气是否适合旅行。

除了上述主要能力,LLM大脑还具备传统软件所不具备的智能。

在学习领域知识方面,LLM大脑在训练阶段可以通过学习领域知识进行专业化业务思考与决策。比如LLM大脑在训练阶段学习了3GPP的公开标准协议,如果任务目标是“要看8K视频,UPF需要调整什么参数”,那么LLM大脑将告知智能体需要调整N4 PFCP协议Session Modification消息中的QER的MBR和GBR,向UPF下达明确的带宽调整命令。领域知识是智能体能够应用在电信行业的基础,任务规划与分解、逻辑推理与决策、环境感知与理解等能力结合领域知识,就可以实现很多不需要预先编写代码的业务智能。

具备结构化和非结构化理解能力。智能体借助LLM大脑能够理解和处理结构化、半结构化、非结构化的信息,显著有别于常规软件的能力,这也是使得海量差异化任务可以被表达处理,而不需要变动软件系统的核心能力。常规软件仅能处理预定义的结构化信息,其业务逻辑完全由代码限定。比如结构化方式{“姓名”:“张三”;“性别”:“男”;“毕业院校”:“清华大学”}中,若系统预设的“毕业院校”列表中未包含“麻省理工学院”,则无法识别处理;若要新增“毕业国家”字段,则必须修改代码并发布新版本。而LLM大脑可以灵活理解并处理结构化方式的表达,部分带有自然语言的半结构化方式的表达{“姓名”:“张三”;“性别”:“男”;“其他信息”:“毕业于美国麻省理工学院”},或者非结构化方式表达{“张三,男,毕业于麻省理工学院”},则无需重新发布软件版本。

在生成能力方面,在智能体工作过程中,LLM大脑除了能够生成普通的聊天问答内容,还可以依照规格描述生成结构化与半结构化的内容、可以运行的代码。普通问答用户可能遇到大模型生成内容存在幻觉的情况,即生成一些看似合理但实际错误、不存在或毫无依据

的信息,这主要由非专业领域的通常用法的上下文约束不足和语义歧义比较多所导致;根据OpenAI的实践,如果给LLM提供严格的语法要求进行生成,则可以实现100%的语法确定性。LLM大脑的结构化和半结构化,以及代码生成能力,是电信行业实现业务逻辑实时在线生成的关键智能所在。

智能体的身体

LLM大脑的智能需要依赖专业软件工程师开发的智能体才能得以充分发挥。智能体实际上是以软件的方式运行,用编程的方式组织任务目标,告知LLM大脑各种工具和其他智能体的使用指南,以拟人化的方式要求LLM大脑充当角色,通过不断问询LLM大脑,得到每一步的半结构化做事指南。这些做事指南通常包括非(半)结构化表达的子任务目标和结构化表达的工具使用或者智能体使用。LLM大脑根据做事指南,通过软件代码调用不同的工具或者其他智能体,逐步迭代,直到任务目标完成。因此,与人体需要手脚和五官来感知与联系外界环境类似,智能体需要通过调用各种工具和其他智能体,实现与外界环境的感知和交互。

智能体的专业能力

智能体与LLM大脑交互的模式和普通用户问询LLM大脑的模式有显著不同。前者在与LLM大脑交互时可以充分发挥LLM大脑最大程度智能和使用工具的专业性。

在规划与推理方面,常用的规划技术有先分解子任务然后逐个执行子任务(Plan-Act)、根据当前子任务执行情况再分解下一个子任务(ReAct)、分层任 务网络(HTN)、从多个规划选项中选择最合适的子任务规划、外部规划器辅助的规划(比如借助外部PDDL)、反思和优化(Reflection)等;常用的推理技术有思维链、思维树、思维图等;规划与推理协同驱动技术有路由模式、并行执行模式等。

在记忆与演进方面,记住短期对话中的上下文信息是短期记忆,历史对话信息的回忆是长期记忆,个体级别的长短期记忆有助于智能体在电信行业实现超个性化体验;反思和自我纠正模式让智能体能够自我批判输出,发现错误并迭代优化;学习和自适应模式则让智能体根据反馈和经验不断进化,变得更智能。

在工具使用方面,除了热门的MCP协议使用解耦独立的外置工具,智能体也能够通过函数调用或者API和外部世界互动;查询、优化、使用检索增强生成时效性强的动态知识。

在多智能体协作方面,通过多个专职智能体协同工作,各自承担不同角色和能力,共同达成目标;多智能体协作能够降低单一智能体的复杂性,提升推理规划决策的有效性、专业性、准确性。多智能体的协作有很多方式,与人类的分工合作类似,可以采用顺序交接、并行处理后合并、辩论后达成共识、分层分级分工等方式,也可以采用批评审查方式。

智能体在电信行业落地的确定性和可靠性

类比电信云原生,在可靠性达99.9%(3个“9”)到99.99%(4个“9”)的云原生基础 设施上构建了99.999%(5个“9”)可靠性的电信系统,学术界和工业界针对智能体行业落地的确定性和可靠性问题,从LLM大脑、智能体和大型系统三个层面进行了大量的研究和实践。

在LLM大脑层面,根据OpenAI的研究和实践,语法正确性可通过Constrained Decoding(约束解码)10 0%达成;语义正确性可通过多手段多角度提升,覆盖从训练数据集、模型结构(参数bias)到思维链,以及RAG、基于人类反馈的强化学习、反思各种前述规划推理和学习演进等各种技术手段。

在智能体层面,图灵奖得主Joseph Sifakis在“可信赖自主系统开发”面对如自动驾驶、智能体的复杂智能系统时,主张从“设计时保证一切正确”转向“运行时实时保证可依赖”:通过可信的监督模块对非信任模块的输出进行监控,在检测异常时,回落切换到信任模块的输出以维持底线业务。谷歌在《Agentic Design Patterns》一书中也提到一系列的实践模式以提高智能体的可靠性:输入验证与清理、输出过滤与验证、行为约束、工具限制、检查点与回滚模式,以及人类介入等。

在系统层面,端侧智能体的快速发展,为端网通过智能体协同构建一个从端侧提出业务诉求、网络实时智能生成业务,到效果被端侧验证的完整外部大闭环。而网络系统内部,业务智能实时生成后,通过网络监控和系统调整,形成一个内部小闭环。这两个内外部大小闭环以及必要时的人类介入,为生成式网络提供了系统级可靠性。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容