2025年AI产业发展十大趋势报告
5.30 MB
51 页
0 下载
110 浏览
0 评论
0 收藏
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
概览 | ||
Confidential and Protected by Copyright Laws
本产品保密并受到版权法保护
2025年
AI产业发展十大趋势
易观分析
2024年12月2
激发科技与创新活力
AI赋能千行百业,行业大模型催生“智能链主”
AI技术能力普惠之下,利用企业专有数据形成深度洞察与策略是
企业未来经营差异化的重要关键
AI应用的深化将对企业的组织能力提出新的要求,企业需要打造
适用于人机协同的组织管理体系
self-play RL范式开启,大模型技术军备赛进入复杂推理阶段
多模态模型能力持续升级,朝向多模态理解和生成的统一发展
Agent向超级智能体进化,具备更强的学习和推理能力,处理更
复杂的任务
AI原生应用形成服务闭环,聚焦专业用户提升效率是中短期重要
方向
现存应用加速拥抱AI,利用LLM能力提升产品竞争力,不加AI就
淘汰
AIGC赋能IP全生态,延长优质IP生命周期,提升商业价值贡献
硬件全面AI化,教育与办公、生活的应用场景闭环率先实现落地
2025年AI产业发展十大趋势
应用场景多元化探索,初现雏形
企业拥抱AI持续加速,理性思考投入产出比
AGI道阻且长,技术能力持续提升,加速产业落地3
激发科技与创新活力
趋势1:self-play RL范式开启,大模型技术
军备赛进入复杂推理阶段
由OpenAI发布的GPT3作为序幕,大语言模型理解和生成能力、通用和泛化能力提升等,
引爆了对于AGI发展的高预期,大量大模型涌现,开源模型与闭源模型并驾齐驱,国内
大模型也在奋起直追,人工智能的发展从分析式AI进入生成式AI时代。
分析式人工智能→生成式人工智能
人工智能与AGI发展阶段划分
•交互革命
•人机交互方式:GUI���
DUI/HUI
•Prompt工程价值凸显
•知识革命
•语言是知识的载体,未
来模型人人可训、人人
可用,即个人知识能力
将得以复制和扩展
•思维革命
•AI具备独立思考与逻辑
判断的能力
•进一步延展,具身智能
连接物理世界,硅基生
命与碳基生
AGI 0.1
AGI 1.0
AGI 2.0
通过易观分析AI开发者调研
结果来看,OpenAI GPT系列
大模型以42.9%的使用率位居
首位,同为海外的Meta
LLaMa系列大模型以27.1%的
比例位居第三位。中国的大
模型企业,阿里通义大模型
以37.8%的使用率位居第二。
总体上而言,AI开发者在模
型层的选型仍然处于变动的
状态,且尚未形成相对比较
明确的竞争格局。而OpenAI
发布o1(草莓)模型,则再
次定义大语言模型的技术方
向与竞争焦点,如下图所示:4
激发科技与创新活力
机器学习
深度学习与大语言模型时代
预测性分析
分类
生成式和对话式AI
2000
2024+
XGBoost
CatBoost
AlexNet
BERT
GPT3
GPT4
Gemin1.5
LLaMa-3
o1
Claude3.5
复杂推理
self-play RL
Pre-train
RLHF Post-train
VS
与以往的模型相比,OpenAI o1 聚焦于优化推理过程,在复杂的科学、编程和数学等任
务中的表现显著提升。它能够像人类一样进行深入思考、逐步推导,这对于解决需要深
度逻辑推理的问题具有重大意义,突破了对大型语言模型能力的传统认知,为人工智能
在复杂任务处理上开辟了新的道路。
由此而开启Post-train阶段的Self-play RL(自对弈强化学习)范式对于后续大模型技
术路线的升级和优化具有指引性的意义,传统预训练依赖全网语料,数据有噪声且质量
不一,RLHF 后训练受人类标注数据限制。纯强化学习(RL)方法无需人类标注数据,
能让模型自我探索学习,激发创新和探索能力,利于突破未知领域。
同时,也需要注意到,尽管Self-play 方法已经开始在一定范围内得到应用,但是,也
仍然存在挑战需要进一步研究和解决,包括收敛性问题、环境非平稳性问题、可扩展性
与训练效率等问题。另外,强化学习注重设计良好的“奖励模型”,但是除了数学、代
码等理科领域,强化学习在其他领域仍然难以泛化。5
激发科技与创新活力
总体上而言,在复杂推理阶段,大模型需要具备更高层次的逻辑推理、因果推断和问题
解决能力,进而可以扩展大模型在更多领域发挥重要作用,复杂推理的重要性凸显。这
进一步提升了当下大模型技术能力的评价标准与竞争壁垒。
在OpenAI发布O1推理模型之后,国内大模型厂商也紧随其后,纷纷推出了自己的推理模
型。这些模型在数学、代码、推理谜题等多种复杂推理任务上取得了显著进步。
机构
模型
基本情况
北京大学、清华大学、
鹏城实验室、阿里巴
巴达摩院及理海大学
联合研发
llava-o1
基于llama-3.2-vision模型,具备自主多阶段推理能力,在
多模态推理基准测试中表现优异;该模型旨在允许模型在推
理时采用更系统和结构化的方式。LLaVA-o1 通过引入分阶段
的推理框架,使得模型能够在处理视觉问题时,按照总结、
说明、推理和结论四个阶段逐步进行,从而提高推理的准确
性和一致性
DeepSeek
DeepSeek-
R1-Lite
根据DeepSeek官方发布的报告显示,通过强化学习训练,在
数学、代码和复杂逻辑推理任务上表现媲美o1-preview;
目前模型仍在开发阶段,经持续迭代,正式版DeepSeek-R1模
型将完全开源,包括公开技术报告并提供API
月之暗面
k0-math
主打数学推理能力,数学能力对标OpenAI o1系列;采用了全
新的强化学习和思维链推理技术,通过模拟人脑的思考和反
思过程,大幅提升了解决数学难题的能力,可以帮助用户完
成更具挑战性的数学任务 ;同时,该模型可能会过度思考的
问题,并需要进一步进行泛化
阿里巴巴
QwQ
QwQ-32B-Preview,其推理能力在评测结果上超过o1-mini,
是目前开源领域最强的推理大模型;同时,官方团队也指出
了该模型存在的局限性,包括:语言混合、递归推理风险、
需要进一步完善安全机制、常识推理的提升空间。
Marco-o1
Marco-o1不仅关注具有标准答案的学科(例如代码、数学等)
领域,而且更加强调开放式问题的解决方案。研究团队的目
标是解决:“o1这类模型能否有效的推广到难以量化且缺乏
明确奖励的其他领域上”这一问题
部分中国大模型企业推出推理模型
信息来源:网络公开信息,易观分析整理6
激发科技与创新活力
趋势2:多模态模型能力持续升级,朝向多
模态理解和生成的统一发展
当前自然语言、音频、视频等多个模态的理解与生成能力均提升显著,在模型创新、跨
模态能力提升、性能优化上有进展,并涌现出不少基于多模态模型的应用和探索。目前
多模态大模型主要有两种思路,具体如下:
多模态大模型语言模型
(MM-LLM)
大型多模态模型
(LMM)
MLLM是在大型语言模型(LLM)的基
础上发展起来的,通过扩展LLM的能
力,使其能够处理和理解来自不同模
态(如图像、音频等)的数据。MLLM
的核心在于将LLM的强大文本处理能
力与其他模态的数据进行融合,实现
跨模态的任务处理
LMM是指从设计之初就专门针对多模
态数据进行适配的大型深度学习模型,
能够同时处理和理解多种模态的数据
(如文本、图像、音频、视频等)。
LMM的核心在于其原生多模态架构,
能够在多模态数据之间建立深层次的
关联和融合。如谷歌 Gemini模型、
OpenAI GPT-4V模型
利用现有LLM预训练成果,减少开发
成本和时间
灵活进行不同模型之间的组合,适用
于多种多模态任务
具备较强的多模态融合能力
处理复杂的多模态任务时表现更优异,
如视频分析等
模态对齐问题,可能导致模型在处理
多模态任务时效果受限
深层复杂推理能力有限,难以实现完
全统一的多模态理解和生成
需要处理多种模态数据,训练复杂,
相应产生比较高的计算成本
实现有效的多模态数据对齐和融合的
技术挑战比较大
定义
优势
不足
具体来说,当前多模态模型的进展如下:
新模型不断涌现
研究机构和企业不断推出性能强大的多模态模型,例如智源人工智能研究院 Emu3,是
全球首个原生多模态世界模型,通过自回归技术结合图像、文本和视频三种模态,在图
像生成、视觉语言理解和生成方面表现出色。
训练方法优化
训练方式不断创新,例如新的联合训练策略,即在训练过程中先固定大语言模型的权重
参数,对图像编码器和桥接组件进行初步训练,然后再对整个模型进行整体训练,这种
分阶段的训练方式有助于提高模型的性能和效率。7
激发科技与创新活力
跨模态交互能力增强
能够更好地理解和关联不同模态之间的信息,实现更精准的跨模态交互和转换,例如,
可以根据文本描述生成高质量的图像或视频,也可以理解图像或视频内容并生成相关的
文本描述,并且在语义一致性方面有了很大提升。
性能提升
计算效率提高,多模态模型计算速度加快、响应时间缩短,可快速处理分析数据满足实
时需求。同时,模型结构与训练方法优化使精度提升,在图像、语音、自然语言处理等
任务准确率和召回率显著提高。
面对现实世界,信息是以多种模态存在的,如文本、图像、音频、视频等。人类的认知
过程是多模态的,我们通过视觉、听觉、触觉等多种方式感知世界。然后,上述在多模
型能力方面的进展,通常都是将理解和生成任务分开处理,使用独立的模型分别应对,
多模态模型的统一有助于使其更接近人类的认知模式,从而更好地理解和处理复杂的自
然场景,增强人机交互体验,拓展更广泛的应用领域。相应地,多模态理解和生成的统
一是当下多模态模型能力提升的重要发展方向。
LLM
Diffusion
LLM(AR)
Vision
Language
Language
Language
Language
Vision
Vision
(a)Understanding Only
(b)Generation Only
e.g., LLaVA
e.g., Stable Diffusion 3
e.g., LlamaGen
LLM
LLM(AR+Diffusion)
Vision
(3)Unified Model(Understanding & Generation)
e.g., NExT-GPT, SEED-X
e.g., LWM,Chameleon
e.g., Show-o
Continuous
Discrete
AR:
Autoregressive
Diffusion
Language
Language
Vision
Language
Vision
Language
Vision
Language
Vision
Language
Vision
LLM(AR)
信息来源:SHOW-O:One Single Transformer to Unify MultiModel Understand and Generation8
激发科技与创新活力
无论是上述何种思路,多模态整体上需要在如下方向进一步研究与提升,从而实现更广
泛的应用落地:
技术发展
增强跨模态理解能力
不同模态的数据(如文本、图像、音频、视频等)具有各自独特的特征和表达方式,
统一发展能更好地建立起不同模态之间的关联和映射,让模型更准确、深入地理解各
模态信息的内在联系和语义一致性
提高模型的泛化能力
单一模态的模型往往只能处理特定类型的数据,在面对复杂多变的实际场景时可能表
现不佳。而多模态模型的统一发展可以整合多种模态的信息,使模型能够从多个角度
对事物进行理解和分析,从而提高模型的泛化能力,适应不同的应用场景和数据变化
数据管理
促进数据融合和共享
多模态模型的统一发展需要对不同模态的数据进行融合和处理,这将推动数据的标准
化和规范化,促进不同来源、不同格式的数据之间的融合和共享
缓解数据稀缺问题
某些模态的数据可能比较稀缺或难以获取,而多模态模型的统一发展可以通过利用其
他模态的数据来弥补某一模态数据的不足
应用落地
拓展应用场景
统一的多模态模型可以打破不同模态之间的界限,为各种创新应用场景的开发提供了
可能。例如,在文化娱乐领域,可以打造出具有多模态交互功能的虚拟现实(VR)或
增强现实(AR)游戏,让玩家沉浸在更加丰富的虚拟世界中等
降低应用成本
对于企业和开发者来说,使用统一的多模态模型可以减少对不同单一模态模型的开发
和维护成本
提高应用效率和质量
多模态模型的统一发展使得不同模态的数据能够在一个模型中进行协同处理,减少了
数据在不同模型之间的转换和传输时间,提高了应用的效率。同时,统一模型能够更
好地整合多模态信息,做出更准确、更全面的决策和判断,从而提高应用的质量和可
靠性9
激发科技与创新活力
趋势3:Agent向超级智能体进化,具备更
强的学习和推理能力,处理更复杂的任务
Agent 正凭借一系列关键技术进展,如深度学习、强化学习、自然语言处理技术的突破
以及多模态融合等方面的发展,逐步向具备更强学习和推理能力、能处理更复杂任务的
超级智能体进化。
基于大语言模型的发展
以大语言模型为核心的 Agent 在自然语言处理能力上取得
了显著进步。它们能够理解和生成人类语言,准确回答各种
问题,提供详细的解释和建议。这些能力的提升可增强语言
理解与生成,助力任务规划执行,强化推理决策,还能拓展
知识储备与学习能力,如在客服、写作、金融、科研等多领
域发挥作用,推动 Agent 更好完成各项复杂任务。
>
工具使用能力的拓展
Agent 能够与外部工具进行更有效的交互和协作。具体涵盖信息检
索、数据分析、文件处理、图像音视频处理、自动化流程管理、智
能协作沟通等多方面工具能力的拓展。这对 Agent 进化价值显
著。能增强任务处理、提升信息获取整合能力、拓展应用场
景并促进人机协作,让 Agent 可应对多样任务、跨领域应
用、更好配合人类,有力推动其从单一向多功能等方向进化。
>
多模态融合能力增强
部分 Agent 开始具备多模态融合的能力,能够结合文本、
图像、语音等多种信息进行处理和分析。多模态融合能力增
强可以推动Agent实现更全面准确信息理解,克服单模态局
限、整合多源信息;带来更自然高效人机交互;使其有更强
场景适应力;还赋予更智能决策与规划能力,为 Agent 在
多领域应用提供有力支撑。
>
上述Agent 能力提升对应用场景的拓展意义非凡,使得Agent能更精准理解场景需求,
高效处理复杂任务,提升整体工作效率,适应多元环境变化,保障应用的稳定性与持续
性。同时,Agent 进化为超级智能体也将进一步促进多智能体应用的发展,包括提升任
务处理与协同能力,快速处理复杂任务并优化多智能体协同;可能推动多智能体系统的
架构向更加智能化、灵活化的方向发展,并对多智能体系统进行集中管理和监控,及时
发现和解决系统中的问题,提高系统的稳定性和可靠性等。10
激发科技与创新活力
尽管上述技术能力的不断提升可以推动Agent向广泛的应用场景拓展,但是在实际落地
的过程中仍然需要形成一系列规则和措施来规避如下技术以外的风险和挑战:
伦理道德
安全
社会经济
价值对齐:确保Agent目
标与人类价值观一致困难,
其决策可能不符人类期望,
引发道德困境
责任划分:Agent出错时,
难以界定开发者、使用者
还是其自身的责任,需明
确法律伦理框架
隐私保护:Agent训练需
大量数据,保障性能同时
保护用户隐私是重要挑战
对抗攻击:易受恶意攻击,
如对抗样本可使Agent产
生错误决策,需有效防御
技术
自主决策风险:自主决策
能力可能带来不可预测风
险,决策系统故障或被篡
改会严重影响社会
就业影响:广泛应用可能
替代大量工作岗位,需做
好劳动力转型与再培训应
对就业市场变化
社会公平性:发展应用可
能加剧不平等,优势群体
受益多,落后地区和弱势
群体可能被边缘化
Tool
Copilot
AI Agent
RPA
RPA+AI
LLM驱动
程序员驾驭数字员工,
赋能业务团队
业务人员可用,
进一步降低应用门槛
人机协同,实现数字化
劳动力的组合与重构
将 LLM(大语言模型)和 RPA(机器人流程自动化)相结合是现阶段 Agent 落地的一
种有效手段,可以充分发挥技术协同优势,增强数据处理与理解能力,将智能决策与任
务执行有机融合;也有助于通过RPA明确的流程规则,确保价值对齐和透明性提升,以
及责任界定的辅助;通过RPA系统本身具有的稳定性和可靠性,在一定程度上提升Agent
应用的安全保障能力等。如下三种方式并行,也是企业考虑利用Agent和数字员工提升
劳动生产力的可行之道。
本报告来源于三个皮匠报告站(www.sgpjbg.com),由用户Id:107695下载,文档Id:186638,下载日期:2024-12-2511
激发科技与创新活力
附:中国Agent应用图谱
金融
文娱
教育+公用
事业
制造+能源
医疗+健康
消费/电商
平台类Agent&开发平台
行业解决方案类型Agent
功能类型Agent
RPA平台
AI PaaS
支小助
小浦
智汇、智读等
腾讯元宝
桃豆
游戏Copilot队友
数字员工
AI Agent
以正教育Agent
AYAYI
商家智能助手
AI购物助手
小沪小华
AI Agent
CPS AI Agent
会聆心理
39AI全科医生
春雨慧问
代码+测试
办公
财税
营销+客服
数据分析
人力资源
AI程序员
CodeGeeX
ChatDEV
金山Copilot Pro
数字员工Agent
钉钉AI助理
AI数字员工
BPai智能财税
“金税一言”
AI面试助手
AI Family
AI Agent
小明助理
BlueAI
TableAgent
Copilot
AI数据分析师
代码小浣熊
MyAI
诺企服·小诺咨
询
EVA 对话式BI
AI Agent
数据分析Agent
邮晓蕊
教育 AI 助手
携程问道
安全应急
AI Agent
HealthGPT
AskXBOT
智能体平台
星火智能体平台
智能体中心
SkyAgents12
激发科技与创新活力
总结:AGI道阻且长,技术能力持
续提升,加速产业落地
AGI 需具备类似人类的通用认知能力,涵盖学习推理、语言理解与交互、复杂规划与决
策等多方面能力。这就意味着朝向AGI进化的基础技术,无论是模型架的创新,还是模
型自主决策能力的训练与提升,都需要长周期的摸索与研究。
同时,AGI的发展也面临诸多挑战,这包括:
计算资源限制
AGI 基础技术研发对算力要求极高,从模型架构创新角度,新架构探索需大量计算资源
进行实验和验证;模型自主决策能力训练也需海量数据及复杂计算来优化模型参数,以
实现精准决策 。然而,当前硬件技术发展还无法完全满足需求,硬件性能提升速度跟
不上模型规模和复杂度增长,限制了研究进度,导致研究周期延长。
数据获取与质量难题
高质量数据是基础技术发展的关键,模型架构创新需大量不同类型数据来训练和优化,
以学习各种模式和规律;自主决策能力训练更需
|
下载文档到本地,方便使用
共 51 页, 还有
1 页可预览,
继续阅读
文档评分