2025年AI产业发展十大趋势报告 - 舆知库 · 国内首家舆情知识共享平台

语言	格式	评分
中文（简体）	.pdf	3
概览
Confidential and Protected by Copyright Laws 本产品保密并受到版权法保护 2025年 AI产业发展十大趋势易观分析 2024年12月2 激发科技与创新活力  AI赋能千行百业，行业大模型催生“智能链主”  AI技术能力普惠之下，利用企业专有数据形成深度洞察与策略是企业未来经营差异化的重要关键  AI应用的深化将对企业的组织能力提出新的要求，企业需要打造适用于人机协同的组织管理体系  self-play RL范式开启，大模型技术军备赛进入复杂推理阶段  多模态模型能力持续升级，朝向多模态理解和生成的统一发展  Agent向超级智能体进化，具备更强的学习和推理能力，处理更复杂的任务  AI原生应用形成服务闭环，聚焦专业用户提升效率是中短期重要方向  现存应用加速拥抱AI，利用LLM能力提升产品竞争力，不加AI就淘汰  AIGC赋能IP全生态，延长优质IP生命周期，提升商业价值贡献  硬件全面AI化，教育与办公、生活的应用场景闭环率先实现落地 2025年AI产业发展十大趋势应用场景多元化探索，初现雏形企业拥抱AI持续加速，理性思考投入产出比 AGI道阻且长，技术能力持续提升，加速产业落地3 激发科技与创新活力趋势1：self-play RL范式开启，大模型技术军备赛进入复杂推理阶段由OpenAI发布的GPT3作为序幕，大语言模型理解和生成能力、通用和泛化能力提升等，引爆了对于AGI发展的高预期，大量大模型涌现，开源模型与闭源模型并驾齐驱，国内大模型也在奋起直追，人工智能的发展从分析式AI进入生成式AI时代。分析式人工智能→生成式人工智能人工智能与AGI发展阶段划分 •交互革命 •人机交互方式：GUI�� DUI/HUI •Prompt工程价值凸显 •知识革命 •语言是知识的载体，未来模型人人可训、人人可用，即个人知识能力将得以复制和扩展 •思维革命 •AI具备独立思考与逻辑判断的能力 •进一步延展，具身智能连接物理世界，硅基生命与碳基生 AGI 0.1 AGI 1.0 AGI 2.0 通过易观分析AI开发者调研结果来看，OpenAI GPT系列大模型以42.9%的使用率位居首位，同为海外的Meta LLaMa系列大模型以27.1%的比例位居第三位。中国的大模型企业，阿里通义大模型以37.8%的使用率位居第二。总体上而言，AI开发者在模型层的选型仍然处于变动的状态，且尚未形成相对比较明确的竞争格局。而OpenAI 发布o1（草莓）模型，则再次定义大语言模型的技术方向与竞争焦点，如下图所示：4 激发科技与创新活力机器学习深度学习与大语言模型时代预测性分析分类生成式和对话式AI 2000 2024+ XGBoost CatBoost AlexNet BERT GPT3 GPT4 Gemin1.5 LLaMa-3 o1 Claude3.5 复杂推理 self-play RL Pre-train RLHF Post-train VS 与以往的模型相比，OpenAI o1 聚焦于优化推理过程，在复杂的科学、编程和数学等任务中的表现显著提升。它能够像人类一样进行深入思考、逐步推导，这对于解决需要深度逻辑推理的问题具有重大意义，突破了对大型语言模型能力的传统认知，为人工智能在复杂任务处理上开辟了新的道路。由此而开启Post-train阶段的Self-play RL（自对弈强化学习）范式对于后续大模型技术路线的升级和优化具有指引性的意义，传统预训练依赖全网语料，数据有噪声且质量不一，RLHF 后训练受人类标注数据限制。纯强化学习（RL）方法无需人类标注数据，能让模型自我探索学习，激发创新和探索能力，利于突破未知领域。同时，也需要注意到，尽管Self-play 方法已经开始在一定范围内得到应用，但是，也仍然存在挑战需要进一步研究和解决，包括收敛性问题、环境非平稳性问题、可扩展性与训练效率等问题。另外，强化学习注重设计良好的“奖励模型”，但是除了数学、代码等理科领域，强化学习在其他领域仍然难以泛化。5 激发科技与创新活力总体上而言，在复杂推理阶段，大模型需要具备更高层次的逻辑推理、因果推断和问题解决能力，进而可以扩展大模型在更多领域发挥重要作用，复杂推理的重要性凸显。这进一步提升了当下大模型技术能力的评价标准与竞争壁垒。在OpenAI发布O1推理模型之后，国内大模型厂商也紧随其后，纷纷推出了自己的推理模型。这些模型在数学、代码、推理谜题等多种复杂推理任务上取得了显著进步。机构模型基本情况北京大学、清华大学、鹏城实验室、阿里巴巴达摩院及理海大学联合研发 llava-o1 基于llama-3.2-vision模型，具备自主多阶段推理能力，在多模态推理基准测试中表现优异；该模型旨在允许模型在推理时采用更系统和结构化的方式。LLaVA-o1 通过引入分阶段的推理框架，使得模型能够在处理视觉问题时，按照总结、说明、推理和结论四个阶段逐步进行，从而提高推理的准确性和一致性 DeepSeek DeepSeek- R1-Lite 根据DeepSeek官方发布的报告显示，通过强化学习训练，在数学、代码和复杂逻辑推理任务上表现媲美o1-preview；目前模型仍在开发阶段，经持续迭代，正式版DeepSeek-R1模型将完全开源，包括公开技术报告并提供API 月之暗面 k0-math 主打数学推理能力，数学能力对标OpenAI o1系列；采用了全新的强化学习和思维链推理技术，通过模拟人脑的思考和反思过程，大幅提升了解决数学难题的能力，可以帮助用户完成更具挑战性的数学任务；同时，该模型可能会过度思考的问题，并需要进一步进行泛化阿里巴巴 QwQ QwQ-32B-Preview，其推理能力在评测结果上超过o1-mini，是目前开源领域最强的推理大模型；同时，官方团队也指出了该模型存在的局限性，包括：语言混合、递归推理风险、需要进一步完善安全机制、常识推理的提升空间。 Marco-o1 Marco-o1不仅关注具有标准答案的学科（例如代码、数学等）领域，而且更加强调开放式问题的解决方案。研究团队的目标是解决：“o1这类模型能否有效的推广到难以量化且缺乏明确奖励的其他领域上”这一问题部分中国大模型企业推出推理模型信息来源：网络公开信息，易观分析整理6 激发科技与创新活力趋势2：多模态模型能力持续升级，朝向多模态理解和生成的统一发展当前自然语言、音频、视频等多个模态的理解与生成能力均提升显著，在模型创新、跨模态能力提升、性能优化上有进展，并涌现出不少基于多模态模型的应用和探索。目前多模态大模型主要有两种思路，具体如下：多模态大模型语言模型（MM-LLM）大型多模态模型（LMM） MLLM是在大型语言模型（LLM）的基础上发展起来的，通过扩展LLM的能力，使其能够处理和理解来自不同模态（如图像、音频等）的数据。MLLM 的核心在于将LLM的强大文本处理能力与其他模态的数据进行融合，实现跨模态的任务处理 LMM是指从设计之初就专门针对多模态数据进行适配的大型深度学习模型，能够同时处理和理解多种模态的数据（如文本、图像、音频、视频等）。 LMM的核心在于其原生多模态架构，能够在多模态数据之间建立深层次的关联和融合。如谷歌 Gemini模型、 OpenAI GPT-4V模型利用现有LLM预训练成果，减少开发成本和时间灵活进行不同模型之间的组合，适用于多种多模态任务具备较强的多模态融合能力处理复杂的多模态任务时表现更优异，如视频分析等模态对齐问题，可能导致模型在处理多模态任务时效果受限深层复杂推理能力有限，难以实现完全统一的多模态理解和生成需要处理多种模态数据，训练复杂，相应产生比较高的计算成本实现有效的多模态数据对齐和融合的技术挑战比较大定义优势不足具体来说，当前多模态模型的进展如下：  新模型不断涌现研究机构和企业不断推出性能强大的多模态模型，例如智源人工智能研究院 Emu3，是全球首个原生多模态世界模型，通过自回归技术结合图像、文本和视频三种模态，在图像生成、视觉语言理解和生成方面表现出色。  训练方法优化训练方式不断创新，例如新的联合训练策略，即在训练过程中先固定大语言模型的权重参数，对图像编码器和桥接组件进行初步训练，然后再对整个模型进行整体训练，这种分阶段的训练方式有助于提高模型的性能和效率。7 激发科技与创新活力  跨模态交互能力增强能够更好地理解和关联不同模态之间的信息，实现更精准的跨模态交互和转换，例如，可以根据文本描述生成高质量的图像或视频，也可以理解图像或视频内容并生成相关的文本描述，并且在语义一致性方面有了很大提升。  性能提升计算效率提高，多模态模型计算速度加快、响应时间缩短，可快速处理分析数据满足实时需求。同时，模型结构与训练方法优化使精度提升，在图像、语音、自然语言处理等任务准确率和召回率显著提高。面对现实世界，信息是以多种模态存在的，如文本、图像、音频、视频等。人类的认知过程是多模态的，我们通过视觉、听觉、触觉等多种方式感知世界。然后，上述在多模型能力方面的进展，通常都是将理解和生成任务分开处理，使用独立的模型分别应对，多模态模型的统一有助于使其更接近人类的认知模式，从而更好地理解和处理复杂的自然场景，增强人机交互体验，拓展更广泛的应用领域。相应地，多模态理解和生成的统一是当下多模态模型能力提升的重要发展方向。 LLM Diffusion LLM（AR） Vision Language Language Language Language Vision Vision （a）Understanding Only （b）Generation Only e.g., LLaVA e.g., Stable Diffusion 3 e.g., LlamaGen LLM LLM（AR+Diffusion） Vision （3）Unified Model（Understanding & Generation） e.g., NExT-GPT， SEED-X e.g., LWM，Chameleon e.g., Show-o Continuous Discrete AR: Autoregressive Diffusion Language Language Vision Language Vision Language Vision Language Vision Language Vision LLM（AR）信息来源：SHOW-O：One Single Transformer to Unify MultiModel Understand and Generation8 激发科技与创新活力无论是上述何种思路，多模态整体上需要在如下方向进一步研究与提升，从而实现更广泛的应用落地：技术发展  增强跨模态理解能力不同模态的数据（如文本、图像、音频、视频等）具有各自独特的特征和表达方式，统一发展能更好地建立起不同模态之间的关联和映射，让模型更准确、深入地理解各模态信息的内在联系和语义一致性  提高模型的泛化能力单一模态的模型往往只能处理特定类型的数据，在面对复杂多变的实际场景时可能表现不佳。而多模态模型的统一发展可以整合多种模态的信息，使模型能够从多个角度对事物进行理解和分析，从而提高模型的泛化能力，适应不同的应用场景和数据变化数据管理  促进数据融合和共享多模态模型的统一发展需要对不同模态的数据进行融合和处理，这将推动数据的标准化和规范化，促进不同来源、不同格式的数据之间的融合和共享  缓解数据稀缺问题某些模态的数据可能比较稀缺或难以获取，而多模态模型的统一发展可以通过利用其他模态的数据来弥补某一模态数据的不足应用落地  拓展应用场景统一的多模态模型可以打破不同模态之间的界限，为各种创新应用场景的开发提供了可能。例如，在文化娱乐领域，可以打造出具有多模态交互功能的虚拟现实（VR）或增强现实（AR）游戏，让玩家沉浸在更加丰富的虚拟世界中等  降低应用成本对于企业和开发者来说，使用统一的多模态模型可以减少对不同单一模态模型的开发和维护成本  提高应用效率和质量多模态模型的统一发展使得不同模态的数据能够在一个模型中进行协同处理，减少了数据在不同模型之间的转换和传输时间，提高了应用的效率。同时，统一模型能够更好地整合多模态信息，做出更准确、更全面的决策和判断，从而提高应用的质量和可靠性9 激发科技与创新活力趋势3：Agent向超级智能体进化，具备更强的学习和推理能力，处理更复杂的任务 Agent 正凭借一系列关键技术进展，如深度学习、强化学习、自然语言处理技术的突破以及多模态融合等方面的发展，逐步向具备更强学习和推理能力、能处理更复杂任务的超级智能体进化。  基于大语言模型的发展以大语言模型为核心的 Agent 在自然语言处理能力上取得了显著进步。它们能够理解和生成人类语言，准确回答各种问题，提供详细的解释和建议。这些能力的提升可增强语言理解与生成，助力任务规划执行，强化推理决策，还能拓展知识储备与学习能力，如在客服、写作、金融、科研等多领域发挥作用，推动 Agent 更好完成各项复杂任务。 >  工具使用能力的拓展 Agent 能够与外部工具进行更有效的交互和协作。具体涵盖信息检索、数据分析、文件处理、图像音视频处理、自动化流程管理、智能协作沟通等多方面工具能力的拓展。这对 Agent 进化价值显著。能增强任务处理、提升信息获取整合能力、拓展应用场景并促进人机协作，让 Agent 可应对多样任务、跨领域应用、更好配合人类，有力推动其从单一向多功能等方向进化。 >  多模态融合能力增强部分 Agent 开始具备多模态融合的能力，能够结合文本、图像、语音等多种信息进行处理和分析。多模态融合能力增强可以推动Agent实现更全面准确信息理解，克服单模态局限、整合多源信息；带来更自然高效人机交互；使其有更强场景适应力；还赋予更智能决策与规划能力，为 Agent 在多领域应用提供有力支撑。 > 上述Agent 能力提升对应用场景的拓展意义非凡，使得Agent能更精准理解场景需求，高效处理复杂任务，提升整体工作效率，适应多元环境变化，保障应用的稳定性与持续性。同时，Agent 进化为超级智能体也将进一步促进多智能体应用的发展，包括提升任务处理与协同能力，快速处理复杂任务并优化多智能体协同；可能推动多智能体系统的架构向更加智能化、灵活化的方向发展，并对多智能体系统进行集中管理和监控，及时发现和解决系统中的问题，提高系统的稳定性和可靠性等。10 激发科技与创新活力尽管上述技术能力的不断提升可以推动Agent向广泛的应用场景拓展，但是在实际落地的过程中仍然需要形成一系列规则和措施来规避如下技术以外的风险和挑战：伦理道德安全社会经济价值对齐：确保Agent目标与人类价值观一致困难，其决策可能不符人类期望，引发道德困境责任划分：Agent出错时，难以界定开发者、使用者还是其自身的责任，需明确法律伦理框架隐私保护：Agent训练需大量数据，保障性能同时保护用户隐私是重要挑战对抗攻击：易受恶意攻击，如对抗样本可使Agent产生错误决策，需有效防御技术自主决策风险：自主决策能力可能带来不可预测风险，决策系统故障或被篡改会严重影响社会就业影响：广泛应用可能替代大量工作岗位，需做好劳动力转型与再培训应对就业市场变化社会公平性：发展应用可能加剧不平等，优势群体受益多，落后地区和弱势群体可能被边缘化 Tool Copilot AI Agent RPA RPA+AI LLM驱动程序员驾驭数字员工，赋能业务团队业务人员可用，进一步降低应用门槛人机协同，实现数字化劳动力的组合与重构将 LLM（大语言模型）和 RPA（机器人流程自动化）相结合是现阶段 Agent 落地的一种有效手段，可以充分发挥技术协同优势，增强数据处理与理解能力，将智能决策与任务执行有机融合；也有助于通过RPA明确的流程规则，确保价值对齐和透明性提升，以及责任界定的辅助；通过RPA系统本身具有的稳定性和可靠性，在一定程度上提升Agent 应用的安全保障能力等。如下三种方式并行，也是企业考虑利用Agent和数字员工提升劳动生产力的可行之道。本报告来源于三个皮匠报告站（www.sgpjbg.com）,由用户Id:107695下载,文档Id:186638,下载日期:2024-12-2511 激发科技与创新活力附：中国Agent应用图谱金融文娱教育+公用事业制造+能源医疗+健康消费/电商平台类Agent&开发平台行业解决方案类型Agent 功能类型Agent RPA平台 AI PaaS 支小助小浦智汇、智读等腾讯元宝桃豆游戏Copilot队友数字员工 AI Agent 以正教育Agent AYAYI 商家智能助手 AI购物助手小沪小华 AI Agent CPS AI Agent 会聆心理 39AI全科医生春雨慧问代码+测试办公财税营销+客服数据分析人力资源 AI程序员 CodeGeeX ChatDEV 金山Copilot Pro 数字员工Agent 钉钉AI助理 AI数字员工 BPai智能财税 “金税一言” AI面试助手 AI Family AI Agent 小明助理 BlueAI TableAgent Copilot AI数据分析师代码小浣熊 MyAI 诺企服·小诺咨询 EVA 对话式BI AI Agent 数据分析Agent 邮晓蕊教育 AI 助手携程问道安全应急 AI Agent HealthGPT AskXBOT 智能体平台星火智能体平台智能体中心 SkyAgents12 激发科技与创新活力总结：AGI道阻且长，技术能力持续提升，加速产业落地 AGI 需具备类似人类的通用认知能力，涵盖学习推理、语言理解与交互、复杂规划与决策等多方面能力。这就意味着朝向AGI进化的基础技术，无论是模型架的创新，还是模型自主决策能力的训练与提升，都需要长周期的摸索与研究。同时，AGI的发展也面临诸多挑战，这包括：  计算资源限制 AGI 基础技术研发对算力要求极高，从模型架构创新角度，新架构探索需大量计算资源进行实验和验证；模型自主决策能力训练也需海量数据及复杂计算来优化模型参数，以实现精准决策。然而，当前硬件技术发展还无法完全满足需求，硬件性能提升速度跟不上模型规模和复杂度增长，限制了研究进度，导致研究周期延长。  数据获取与质量难题高质量数据是基础技术发展的关键，模型架构创新需大量不同类型数据来训练和优化，以学习各种模式和规律；自主决策能力训练更需

下载文档到本地，方便使用

共 51 页，还有 1 页可预览，继续阅读

文档评分

Spring

文档

90

文章

0

魔豆

11920

个性签名

暂无个性签名