ChatGPT Agent:智能体发展战略路线分化

责任编辑:包建羽 2025.07.31 09:35 来源:天翼智库

7 月 17 日,OpenAI发布通用ChatGPT Agent,与Manus、Genspark、Comet等专业Agent初创公司形成直接竞争。通过分析,我们认为当前阶段Agent市场竞争呈现如下特点:

1、“全能”不敌“专精”。尽管ChatGPT Agent在技术上最为全面,但在实际应用测试中,其用户体验和任务完成效果并未超越Manus、Genspark等专注于特定场景的初创公司。表明当前阶段,通用型Agent在解决具体问题上不如深度优化的专用Agent。

2、市场分化为两条路径。一是如OpenAI,致力于打造“模型即Agent”的大模型内生通用底层能力;二是如Manus,采用“工作流+多模型”模式,快速响应特定市场需求。这两条路线将在未来长期共存。

3、生态位之争是关键。竞争的核心已从单纯的模型能力比拼,转向产业生态位的争夺。模型厂商致力于以领先大模型为基础提供智能体平台、应用厂商则聚焦于垂直解决方案的趋势愈发明显。OpenAI此次亲自下场与应用企业竞争,行业反响虽平淡,但其定位于打造“iOS”的平台战略意图较为明显,有待观察。

ChatGPT Agent是目前核心功能最全的网页操作与信息研究类Agent

一是ChatGPT Agent采用了“原生智能”路线。通俗地说,它不是依赖一套预设好的‘行动剧本’去完成任务,而是通过底层模型训练,让Agent天生就具备自主规划、使用工具和在复杂环境中自我纠错的能力。理论上,这种方式的上限更高,更接近真正的‘自主智能’。

表1:主要网页操作与信息研究类Agent核心功能对比

image.png

(根据实测和网络信息整理)

二是ChatGPT Agent 融合 Deep Research 和 Operator 两大核心产品。OpenAI今年1月份发布的Operator 能够在网页上滚动、点击和输入文本,可代替人操作各类Web应用,例如京东订购货物、携程订购机票等,2月发布的Deep Research则擅长分析和总结信息,能够大量整合各类信息提供深度的研究报告输出。但是OpenAI发现,用户通过Operator 的许多查询实际上需要深入研究,比如餐厅预订需要先做信息研究等。同类Agent中,只有国内智谱AutoGLM沉思整合了两个能力,但实际更接近于ChatGPT的Operator功能,影响力也难以抗衡。

三是ChatGPT Agent 网络工具与内置终端工具能力较为完备。ChatGPT Agent 配备了一套完整的工具箱,能够根据任务需要,灵活调用文本研究、网页模拟操作、内容生成、命令行执行等多种工具,并且可以直接与其他软件服务的API接口(MCP)对话,能直接运行代码、数据分析、调用API、接入Google Drive、GitHub等外部数据,能力非常全面,适合需要多步骤操作的复杂任务场景。模型经过训练,可自主、灵活地选择合适的工具组合。目前只有Manus AI相对可比,Genspark 、Comet等终端能力有限或不具备。

ChatGPT Agent基准测试爆表但实测未表现明显优势

从OpenAI发布的测评数据看,ChatGPT Agent在结构化学术问题推理、数据分析、网页交互和电子表格四大维度上相比o3有较大程度的领先。如在“人类的最后考试”(Humanity’s Last Exam)评估中,ChatGPT Agent正确率41.6%,是o3无工具模式的两倍(20.3%)。在聚焦数据分析类任务DSBench测试中,ChatGPT Agent数据分析任务准确率87.9%(o3为64.1%),数据建模任务准确率85.5%(o3为77.1%),接近人类表现。在WebArena网页交互测试中,ChatGPT Agent准确率65.4%,超越o3,接近人类水平(78.2%)。在SpreadsheetBench电子表格编辑操作测试中,ChatGPT Agent在直接访问.xlsx文件时,准确率提升至45.5%,优于Copilot in Excel(20%),但与人类水平(71.3%)存在较大差距等。

但在同类产品实测中,ChatGPT Agent没有表现出明显优势。ChatGPT Agent发布后,Manus快速回应,发布10个实测对标案例,通过财务建模、生活规划、行程安排、消费购物、航班筛选等不同场景任务,证明ChatGPT Agent更多聚焦于基础信息检索和文本型交付,Manus在可视化呈现、跨平台操作和交付形式展示了自身优势。 Genspark 创始人高调反馈他们用同样的提示词,Genspark 的响应时间更短、成本更低,生成结果的质量也“高出好几倍”。从《OpenAI Agent测试报告》12个案例看(见表2),ChatGPT Agent的成功率、耗时都不是最优的,其中Genspark成功率最高、花费时间较少,AI浏览器Comet用时更是低一个数量级。这表明,尽管ChatGPT Agent技术架构先进,但在用户最关心的‘做得好不好’和‘用得快不快’这两个核心问题上,并未建立起护城河。

分析其中的核心原因,首先应是Manus、Genspark会针对相关场景(如策划、调研、审查等)预先做场景搜索的提示工程、结果整理逻辑、用户界面设计等深度优化;而ChatGPT Agent更强调通用性,任务通常需要按照通用流程,功能全但需要根据任务灵活组合,输出界面相对粗糙等,因此前者的用户体验会显得更加流畅和专业。其次网络信息深度研究场景的结果可验证性较弱,任务成功与完成度判断有一定的主观性,不能充分体现OpenAI Deep Reserach的能力。而在预定、订购类等可验证的网页操作场景,各家结果普遍欠佳,目前存在普遍性障碍。

表2:《OpenAI Agent测试报告》测试小结

image.png

注:来源公众号郎瀚威will

AI智能体(Agent)发展与竞争趋势

战略分化一:‘造大脑’与‘造工具’,两条技术路线并行发展。“造大脑”(Agent Model):指OpenAI、Anthropic等模型大厂,致力于训练通用Agent模型,解决需要从底层优化的复杂科学研究和决策任务。“造工具”(Agent Tool):指Manus等应用公司,通过编排工作流、封装多模型等方式,快速打造针对特定场景(如财报分析、行程规划)的专用Agent,优势是落地快、效果好、易于调试。

ChatGPT Agent Model在网络信息处理场景暂时未表现出明显优势,但模型即产品是Agent的重要方向之一。Anthropic Claude实际是一个Coding类 Agent Model,模型大厂预计会聚焦类似高级数据分析、复杂决策、科学研究等通用又需要从模型架构层面优化的场景开展Agent Model训练。同时在领域收敛、数据积累较多的金融、电商、医疗等垂直场景也能产生超级Agent Model。

Manus 类 Agent 模式依赖人类预设的工作流、上下文工程、多模型封装,以及特定场景的针对性优化,优点是可解释、可调试、易落地,更适合在简单的信息搜索整理、标准业务流程智能化等场景落地。

战略分化二:‘通用Agent’与‘浏览器插件Agent’,争夺用户核心入口。这不仅是产品形态的差异,更是对用户工作流程主导权的争夺。浏览器作为信息交互的第一入口,具备天然的场景优势,未来可能对独立的通用Agent应用形成降维打击。目前两者都是网络信息处理类Agent,理论上浏览器Agent更适合轻量级任务,Manus 和 Genspark 等通用类Agent更能处理复杂的跨平台任务。但从《OpenAI Agent测试报告》看,Perplexity 7月推出的AI浏览器Comet执行同类任务速度极快,成功率只是略低于通用类Agent。从访问量看,浏览器Agent代表Dia、Fellou与Manus相差一个量级,但增速很快。这不仅仅是要挑战Chrome等传统浏览器的地位,也将不可避免地与通用Agent形成遭遇战。作为网页信息交互的第一入口,浏览器具备一定的身位优势。

图1:典型通用Agent与浏览器Agent访问量比较

image.png

数据来源:similarweb;单位:万访问量

战略分化三:‘做平台’还是‘做选手’,考验巨头们的战略定力。模型大厂更适合聚焦模型能力提升,搭平台、建生态。如Anthropic Claude积极开放API且行业调用量最高,推出模型上下文协议(MCP),形成了快速增长的开发与工具生态;谷歌发布Agent2Agent (A2A)协议,联手Salesforce等多家企业和大量开发者,构建企业应用开发生态等。微软、IBM、Salesforce等IT应用巨头推出企业级Agent应用开发/运维平台;Manus、Genspark、Lovart AI等全球AI Agent初创企业层出不穷。谷歌、Anthropic选择‘做平台’,通过开放API和协议,赋能开发者,构建生态。 而OpenAI此次的策略则显得摇摆不定,既想做裁判(GPT Store),又亲自下场当选手(ChatGPT Agent),导致其直接与生态伙伴竞争,行业反馈平平,这为其长期生态发展埋下了隐患。

在国内,MiniMax Agent、Kimi-K2、夸克 AI 浏览器助手等也形成一定的亮点,但受制于资本、模型能力等因素,海外Agent公司实际占据了流量的主导地位。国内公司可把握端到端强化学习模型与Manus类开发模式成为重要落地形态的趋势,重点开展垂直场景专属Agent训练打造,同步建设优质的Agent发展生态。

建议

结合AI Agent竞争趋势分析,为运营商在AI时代的战略布局提供如下建议:

一是坚持“应用派”路线,避免“模型派”陷阱:运营商的核心优势在于深刻的行业理解、丰富的业务场景和高质量的专有数据。应坚定地走“Manus类”的专用Agent开发路线,即“好模型为我所用”。

二是聚焦垂直场景,打造“杀手级”专属Agent。与其追求功能大而全,不如集中资源,选择1-2个业务中最具价值、痛点最明确的垂直场景(如智能运营、供应链优化、合规风控),打造深度整合业务流程的专属Agent,形成“人无我有”的竞争优势。

三是以“体验”为王,建立差异化优势。ChatGPT Agent的案例表明,底层技术领先不等于用户体验领先。运营商应将重点放在用户界面(UI)、交互流程(UX)和结果呈现的专业性上,让Agent不仅能干活,而且更“懂”业务、更好用,以此构建护城河。

四是拥抱生态,保持战略灵活性。积极与国内外顶尖的模型厂商(国内开源领先的Kimi、deepseek、千问等)保持合作,以开放的心态构建智能体技术底座,确保始终能用上最先进、最具性价比的模型能力,支撑上层应用创新。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容