新万博规则怎么玩懂

Agent专题报告:当前Agent的发展进行到了什么阶段?_模型_规划_能力

Agent尚无明确定义,自主规划与否为核心争议点。

尽管尚未有明确的产品定义,但Agent类别与应用场景已迅速丰富。其中,中美大厂Agent发展思路存在差异,北美云厂商主 要关注帮助客户高效部署模型和Agent,国内互联网大厂Agent布局仍延续互联网时代用户流量逻辑;而中美B端企业则均关 注Agent创建和管理平台。考虑到Agent类产品对算力消耗大,Agent发展有望继续带动AI产业链向上,建议关注后续技术突 破→商业化落地拐点。

Agent进展迅速,AI产业链趋势有望持续向上。1)AI模型及技术持续迭代,利好有数据、有客户、有场景的软件 企业,AI产品有望带动公司ARPU提升和项目单价上升,继续看好ERP和政府方向率先落地订单和产品。2)模型私有化需求增加,利好一体机、超融合和B 端服务外包企业。

幻影视界今天分享的是人工智能AI大模型行业研究报告:《当前Agent的发展进行到了什么阶段?》,报告由中信建投发布。

展开剩余90%

研究报告内容摘要如下

Agent尚无明确定义,自主规划与否为核心争议点

工程师流程调优与否对应Agent发展的两条不同路线。传统的软件系统大多遵循清晰的“请求-响应”模式,即前端(用户) 发送请求,后端(软件)接收请求,访问数据库,执行变更,最终返回结果,这种模式使得软件可以根据用户的需求进行定 义,软件工程师可以通过对代码、架构的精细打磨优化产品性能。而在AI时代,依靠大模型进行动态推理和生成响应则存在 大量的模糊计算,软件的响应不再由静态代码决定,而是基于不断进化的模型能力动态驱动,此时软件工程师对产品额外的 优化代码可能会在模型更新后失去意义,甚至完全失效。上述情形反映到Agent中对应了两条路径,一是由工程师设计复杂 的工作流,让模型在框架里运行;二是不断提升大模型的推理能力,搭建更灵活、通用的Agent。

学界普遍认为Agent需要具备规划能力。目前Agent尚没有统一或公认的定义,学界和业界往往从不同的角度对其进行说明。 学界普遍认为Agent需要具备规划能力:例如李飞飞团队的多模态通用Agent范式中主要包括五个模块,1)环境与感知 (Environment&Perception)模块进行长期任务规划和技能观察;2)学习(Learning)模块使Agent能力不断提升;3)记忆 (Memory)模块使Agent学习到的知识可以被编码并在后续调用;4)认知(Cognition)模块使Agent能够针对任务采取最合 适的行动,并允许环境反馈;5)执行(Action)模块用于完成特定任务或动作。

基于大模型构建核心能力,Agent类别多样

Agent AI的核心能力源于基础大模型的深度集成。以LLMs(大型语言模型)和VLMs(视觉语言模型)为 代表的预训练模型,通过海量多模态数据的自监督学习,形成了对语义、视觉及环境上下文的理解能力, 成为Agent智能行为的认知基座。具体而言,基于基础大模型的Agent通过任务规划和环境反馈实现自主决 策,此时基础大模型能够作为数据生成器合成专家演示数据,以在环境约束下确定代理行为的基准,从而 使Agent能够在虚拟世界中理解场景、生成内容和进行交互式编辑。

Agent AI的能力提升遵循“模仿学习→解耦→泛化→涌现”的递进范式。模仿学习阶段,多模态Agent整合 基础大模型的跨模态数据源,利用强化学习(RL)和模仿学习(IL)构建物理与虚拟世界的映射,解决初 始状态缺乏处理问题能力的难题。解耦阶段将学习过程与任务特定的奖励函数分离,使得该策略能够在不 同任务之间泛化,而不依赖于特定的奖励函数。泛化阶段则通过识别系统行为的基本元素或规则,使系统 能够适应新情境,展示出从简单规则中涌现的更复杂的行为。

基于大模型构建核心能力,Agent类别多样

根据能力或适用场景,李飞飞团队将Agent分为多类。其中主要类别包括多模态Agent和通用Agent;次要类 别包括具象Agent、行动Agent、基于语言的Agent、视觉与语言Agent、知识和推理Agent、游戏/机器人/医 疗等特定领域的Agent;扩展类别则包括视觉导航、模拟环境、重排、Agent基础模型、VR/AR/MR、具象 视觉与语言等。

国内Agent现状:大厂遵循流量逻辑,B端基于平台选取价值场景落地

国内互联网大厂Agent布局仍延续互联网时代用户流量逻辑,通过类“Manus”的通用Agent产品抢占用户: B端企业则类似北美,基于AI/Agent平台选取有价值的产品进行落地:

1)互联网大厂:和海外大厂基于云计算向Agent发展不同,国内互联网厂商在Agent时代仍遵从互联网时代 流量入口的打法。尤其自Manus爆火以来,字节扣子空间、百度心响、阿里心流等通用类Agent产品迅速推 出,力求通过先发优势先一步抢占市场。尽管腾讯目前尚未推出类通用Agent产品,但其在R1发布后对元 宝的大规模投流亦反映其对用户流量的重视;同时,由于腾讯本身具备微信流量的基础优势,AI布局主要 围绕微信及公众号生态,构建应用闭环。 2)B端办公企业:国内B端办公企业在Agent方面的布局与北美类似,先推出平台化产品,再选取部分有价 值的环节推出垂域Agent。金蝶在苍穹Agent平台的基础上构建财务、人力资源、供应链、制造等领域 100+AI应用, BOSS助理、合同智能审查、人才智搜等Agent关注度相对更高;用友YonGPT 2.0涵盖Agent 应用框架,目前人力资源、财务数智、采购招标文件生成等Agent实现头部客户应用;泛微Xiaoe.AI平台将 智能体视为业务落地抓手,提供50+开箱即用的Agent产品,并支持用户自行构建;致远互联产品则迭代至 AI-COP,并推出CoMi智能体产品家族,基于协同运营领域模型及Agent builder平台助力企业构建专属AI能 力。

Agent对话交互Token消耗达十万,底层算力需求仍然旺盛

AI原生应用推动Token消耗量激增。量子位结合市场数据观察,2024下半年国内大模型商用落地日均Tokens消耗量翻了近10 倍,从1000亿级规模到10000亿规模,只用了6个月,月复合增长率达到45%,其中10-12月增长进一步提速。以火山引擎为例, 2024年5月其日均Tokens水平为百亿级,不及全行业1/5;8月初突破千亿Tokens大关,并在之后保持迅速增长,12月日均 Tokens市场份额占比超50%,超过其他玩家份额总和。大模型Token数消耗量激增的核心影响因素在于AI原生应用爆发,以 豆包为例,截至12月中旬,豆包大模型的日均Tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。进入2025年, AI原生应用对token的消耗趋势仍然持续,截至2025年3月底,豆包大模型日均 tokens 调用量已超过12.7万亿,是2024年12月的 3倍,是一年前刚刚发布时的106倍。

Manus单次任务消耗token数或达十万,远超chatbot类AI产品。当Agent成为新的AI落地趋势,其对Token的消耗量则成为了市 场新的关注点。通过接近Manus团队的自媒体《赛博禅心》的文章透露, Manus单条任务的成本在2美金左右(与Manus定价 一致,19美元每月对应1900积分,澎湃新闻测试进行数据分析的任务消耗了200积分),是Deep Search的1/10。而Manus主要 基于Claude 3.7 Sonet进行推理执行,其API输出定价分别为每百万token15美元,则倒推Manus每次任务消耗token数超10万,高 于chatbot类产品单次任务token消耗量至少一个数量级。

Agent落地仍面临意图混淆、多Agent合作、幻觉等多种问题

自然语言描述存在模糊表达,大模型指令跟随能力重要性凸显。意图混淆指大模型在处理模糊指定任务时存在能力不足的问题,主要系自然语言的固有模糊性或故意的未明确指定使大模型难以明确任务目标,增加了模型误解问题设定意图的风险。反映到大模型落地,指令跟随一直是重要benchmark之一,尤其在多轮 交互过程中如何保持大模型回答的一致性更受到产业的关注。

多智能体协作面临多种挑战,学界积极探索解决之道。多智能体的协作同样面临多种挑战。其中,从众行为指智能体可能会因为其他智能体的意见改变自己的判断,这往往受到交互时间、多数意见规模的影响;利益对齐则指由于智能体各自的优化目标可能存在差异,导致整体效率低下;此外,正如前文提及的多智能体通信带来的上下文长度爆炸,其也会大幅增加应用落地成本。

AI 幻觉是影响大模型应用落地的核心挑战之一。AI 幻觉指的是 AI 会生成看似合理但实际确实错误的信息,最常见的表现 就是会编造一些不存在的事实或者细节。幻觉问题一直是大模型时代影响应用落地的一大挑战,年初爆火的DeepSeek-R1更 是被爆出存在超高幻觉率。在Vectara HHEM人工智能幻觉测试(行业权威测试,通过检测语言模型生成内容是否与原始证 据一致,从而评估模型的幻觉率,帮助优化和选择模型)中,DeepSeek-R1显示出14.3%的幻觉率,接近DeepSeek V3(3.9%) 的四倍,主要系在免对简单问题时R1因为思维链也会反复从不同角度理解和衍伸,从而增大了犯错的可能。

Agent幻觉问题同样严重,业界积极探索解决方案。当产业落地趋势向Agent延伸,幻觉问题愈发凸显,自动化执行+结果交 付更加剧了黑盒效应,使开发者难以确定产生幻觉的原因。以Manus为例,其虽然在GAIA基准测试中取得了优异成绩,但在 实际应用中,仍存在不稳定的情况,例如在进行股票数据分析时,Manus可能会因为数据接口的临时故障或数据格式的细微 变化,导致分析结果出现偏差。然而,在金融、医疗等高风险领域,细微的偏差可能会导致较为严重的后果,导致Agent落 地更加困难。目前,业界针对幻觉最常见的做法是引入RAG,通过可靠知识库提高回答的准确性。学界亦提出数据增强、归 因分析等方法降低幻觉模型幻觉水平,前者指构建包含“幻觉”和“正确”标签的数据对,并设定损失函数对模型进行微调; 后者则基于特定注意力头引发幻觉的发现,识图在解码阶段动态关闭注意力头,以及通过微调降低注意力头的文本依赖的方 式,降低模型的幻觉问题。

幻影视界整理分享报告原文节选如下:

本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。

发布于:广东省

新万博规则怎么玩懂介绍 产品展示 新闻动态