pdf文档 AIGC发展研究3.0发布版b版-清华大学新闻学院、人工智能学院@新媒沈阳团队、 AIGC VIP文档

19.55 MB 183 页 0 下载 106 浏览 0 评论 0 收藏
上传 格式 评分
李晓青
.pdf
3
概览
AIGC发展研究 清华大学 新闻学院、人工智能学院 @新媒沈阳 团队、 AIGC 2024年11月团队简介 沈阳为清华大学新闻学院/人工智能学院教授、博导,清华大学新 闻学院元宇宙文化实验室主任,清华大学新闻学院新媒体研究中心主任。 从事多个教学科研领域,包括新闻传播学、计算机科学、信息管理学、 医学。 领导学术研究团队近40人。指导AI元宇宙和机器人两个产业团队。 团队已有众多大模型产业化和AIGC实施案例,有需要可留言联系。 团队坚持:整体主义的跨学科整合力,实证主义的实践导向,社会 建构的产学研结合,进步主义的先锋探索精神,科学服务于大众的社会 责任。 邮箱:124739259@qq.com;微博:@新媒沈阳 元宇宙 大模型产业化 大数据 新媒体与网络舆论 AI诊疗 AI文艺 六 大 研 究 方 向 @新媒沈阳元宇宙/虚拟数字人/大数据/AI 系列研究 新媒体系列报告2015年开始 VR的新浪潮 虚拟数字人发展研究报告3.0 虚拟数字人发展研究报告1.0 大数据/AI/5G生态报告 5G下一代风口:AR 2022 2021 2020 2019 2017 2016 2015 2007 虚拟社区与虚拟时空隧道 虚拟数字人发展研究报告2.0 虚拟数字人系列 ——溯源应用与发展 ——产业发展与技术标准 ——社会价值与风险治理 4 2023 元宇宙发展研究报告2.0版 元宇宙发展研究报告3.0版 韩国元宇宙动态研究报告 时空智能发展研究报告1.0 数字藏品发展研究报告1.0 元宇宙发展研究报告1.0版 元宇宙系列 元宇宙发展研究报告4.0 新媒体发展研究报告9.0 AIGC发展研究报告2.0 AIGC发展研究报告1.0 人形机器人发展研究 大语言模型综合性能评估报告一 AI 哲学哲思问道:思辨革新 微调经典 主题 经典哲学理论 AI引发变化 怀 疑 论 笛卡尔“我思故我在” AI思考所带来的怀疑论危机:OpenAI o1的推理能力是否意味着“思维”?AI的存在挑战了笛卡尔的怀疑论,促使 我们重新审视“思维”与“存在”的关系。 主体间性 胡塞尔“主体间性” AI作为“具备主体间性的主体”:AI的训练文本由多主体提供,使其似乎具备某种“主体间性”。但它究竟是“具 备主体间性的主体”,还是“主体性之集合”?或许,AI的主体间性不过是人类意图的映射,而非真正的主体性。 他者经验 “他者经验”的可获取 AI与“他者经验”的议题:AI的存在使得他者经验的获取成为可能,这挑战了胡塞尔认为他者经验无法被完全获取 的观点。AI甚至可能成为他者经验的载体,研究者需要重新审视主观经验与客观信息的融合。 儒家之信 儒家“信”的思想 AI幻觉对“信”的冲击:AI虚假信息的出现使传统儒家五德思想中的“信”重新获得重视,人们意识到“无信”对 日常生活带来的痛苦和不便。 回归对话 苏格拉底和孔子对于对话 的偏爱 AI对对话的依赖:AI依赖对话形式促进交流,类似于苏格拉底和孔子的教学方式。然而,AI的对话模式也促使我们 重新审视理性、知识本质和人际互动方式,挑战了传统对话的深度与真实性。 历史唯物 马克思的社会阶段理论 AI与实现共产主义的曙光:AIGC大幅提高了社会生产力,为实现更高级社会形态提供了技术支持,这在某种程度 上印证了马克思关于社会阶段演进的预言。AI的发展为技术革命助力,推动了社会向更理想形态的迈进。 技术问询 海德格尔对技术的批判 形而上的技术与思想的重塑:技术不仅是工具,更是一种形而上的力量,深刻改变了人类理解世界的方式。AI的出 现加剧了这一影响,使人类思维逐渐依赖技术逻辑。这种重新审视表明,技术不仅在塑造认知方式,还在重构对自 身和现实的理解。 环形监狱 福柯对权力的批判 AI本身便是一个具象化的环形监狱:AI的应用使用户既是“监视者”,也是“被监视者”,这强化了福柯对权力结 构的批判。AI的存在挑战了对隐私、自我监控和权力关系的理解,促使我们重新审视技术对个人自由和社会控制的 影响。天人智一:融通物我 和谐共生 中国古典哲学中的“天人合一”理念强调人与自然的深层和谐,将心或灵魂视为个体与宇宙沟通的纽带,展 现内在精神与外在自然的紧密联结。随着人工智能时代的到来,这一理念逐步向“天人智一”转变,即通过AI技 术延展人类智慧,攻克诸如意识起源、历史谜题等人类难题,大幅提升生产效率,从而解放人类劳动力,赋予更 多时间与空间去追求个人的诗意生活,实现人与自然、技术的全面和谐。 “天”不仅象征自然环境, 还代表更广泛的宇宙秩序。 被视为至高的存在,其运 作规律是人类应当遵循和 学习的。 “天人合一”强调人是自 然的一部分,能理解并与 自然和谐共处。人的行为 和生活方式应与自然法则 一致,以实现内外和谐。 作为不同于人类和自然的 第三方,人工智能的介入 帮助人类提升生产力,并 更深入地理解世界与自身, 进而实现人、自然和技术 的和谐共处。 天(自然) 人(人类) 智(人工智能) 人工智能同人类灵魂融合 为一,进而极大的解放人 类生产力,提升工作效率。 借此,人类得以更深入理 解世界,实现人、机、自 然和谐共处。 一(三者共生)问行合一:主动深思 创新执行 实践性:“行”是将知识和信息转化为实际行动的过程,它强 调实践和应用。 目标导向:行动是为了实现特定的目标或解决问题,具有明确 的方向性。 动态调整:行动过程中需要根据实际情况进行灵活调整,以达 到最佳效果。 行 探索性:“问”体现了对知识的主动探求,尤其是在使用AI时, 用户通过提问来挖掘数据、寻找答案或解决问题。 互动性:提问是用户与AI系统进行交互的一种方式,通过提问, 用户可以引导AI提供更符合需求的信息。 开放性:好的问题往往是开放性的,能够激发新的思考和发现, 不局限于已有的知识和观点。 问 在人工智能语境下,“问行合一”是指一种高效的人机交互理念,它融合了深度查询与精准执行。其中, “问”代表对未知或复杂问题的深度挖掘与探索,体现了人类对知识与智慧的追求;“行”则代表基于AI分析结 果的迅速且精准的行动实施,彰显了人类对于机器智能输出的高效利用与转化。 此理念倡导在AI技术的辅助下,人类应持续深化提问的质量与深度,充分利用AI的数据挖掘与模式识别能力, 探寻数据与知识背后的深层逻辑与规律。同时,人类需对AI的输出进行精准解读,并迅速转化为具有实际操作性 的策略与行动,以实现人机协同的最大化效益。认知融合,思维拓展,全景理解 虚实连断 性(天) 身心流固 性(人) 觉识拟创 性(智) 虚实存在论:互融交汇 流转不息镜像进化论:逆序生成 模拟宇宙 人类世界 模拟意识: 创建一个能够进行自 我反思、决策并具备 学习能力的系统 AI“主导”的世界 模拟生命: 模拟生命体的复杂性, 包括自我复制、进化 和适应环境的能力 模拟元宇宙: 模拟宇宙的物理法则、 结构和演化历史,宏 观层面反映宇宙起源 嵌 套 模 拟 理 论内外认知论:认知外赋 决策自持 认知融合时代 内化 内联 内卷 外包 外挂 外延 • 如果将人类以往的一切认知定义为“人类普遍认知” (Human General Cognition),而将AI产生的认知定义 为“AI生成认知”(Artificial Intelligence Generated Cognition),那么我们当前正处于一个重要的临界点。 • 认知外包的同时,决策需要内源化提示范畴论:任意为根 潜在为机 潜在有 AI可能给出之结论 的集合 任意有 多元宇宙上一切可 能的知识或信息 可以有 AI交流时实际给出 的结论 实际有 AI给出的作品在现 实世界被创造 01 语言哲学、自然语言、检索语言、编 程语言、AI原理 02 问、改、创、优 03 提示的边界就是想象的边界 04 单一模态到多模态AI三用:重构万象 感知超凡 Ø创新与灵感源泉 Ø心理与情感体验 Ø教育与训练 AI再创 AI拟真 AI异感 Ø 探索与实验 Ø 社会与文化批判 Ø 未来预演快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 决策能力 依赖预设算法和规则进行决策 能够自主分析情况,实时做出决策 创造力 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力 人机互动能力 按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。 前者适合快速反馈,处理即时任务;后者通过推理解决复杂问题。了解它们的差异有助于根据任务需求选择合 适的模型,实现最佳效果。两者均以“AI自动化程度”为线索,但“L1-L5阶段”更为贴近该线索,强调AI在逐步减少人类干预的过 程中实现完全自主,聚焦自动化发展的渐进演变。相较之下,Altman的AGI五阶段更具实践导向。 AI自动化L1-L5:渐进提升 全能自理 对比维度 Sam Altman的AGI五阶段 AI自动化L1-L5 异同点 辅助性阶段 阶段1:狭义AI,AI在特定任务中提供 辅助。 L1:辅助自动化,AI简化流程,提供 工具支持。 两者均以AI提供辅助为基础,帮助人 类提高效率。 部分自主阶段 阶段2-3:AI在复杂任务中提供帮助, 需人类监督。 L2-L3:AI部分自动化,能独立生成内 容但需人类设定条件。 均强调AI在逐步减少人为干预的过程 中具备部分自主能力。 高级自主阶段 阶段4:通用AGI,AI具备高度自主性, 解决广泛任务。 L4:高级自动化,AI独立创作,有一 定创新能力。 都体现了AI的自主性,但Altman更关 注形成可落地的应用节点。 完全自主阶段 阶段5:超级AGI,AI超越人类,具备 自我反思与创新能力。 L5:完全自动化,AI超越人类水平, 具备自我反思与创新能力。 两者都预见AI超越人类,但Altman更 侧重于实践,L5侧重自动化的程度。 部 分 自 动 化 条 件 自 动 化 高 级 自 动 化 辅 助 自 动 化 完 全 自 动 化 Agents Organizations Chatbots Reasoners Innovators生成边界与思维滞环:僵局显现 破题之道 思维滞环可能出现原因: 1. 重复内容:AI生成的回答重复 相似,缺乏新意 2. 推理不变:即使改变提问,AI 的逻辑仍然不变,无法提供不 同的结论 3. 回答表面化:AI只给出浅显的 回答,无法深入分析 4. 语言模式相同:输出的句式和 结构没有变化,显得单调 5. 忽略反馈:AI无法根据用户的 反馈调整回答 如何判定触及生成边界: 1. 指令执行分析:检查AI是否按 要求添加或修改内容 2. 回答多样性测量:评估AI回答 的新信息量和多样性 3. 上下文适应测试:观察AI能否 根据新上下文调整回答 4. 情感语气变化检测:检测AI回 答的情感和语气是否变化 5. 逻辑推理验证:观察AI在条件 变化时是否调整推理 思维滞环现象解决思路: 1. 调整提问:改变问题方式,引 导AI生成不同的回答 2. 优化训练:使用更多样的训练 数据和算法,提高AI的多样性 3. 提供外部信息:引入新的知识 库,帮助AI生成新内容 4. 调整模型参数:优化训练参数, 避免模型陷入局部最优 5. 增加反馈回路:通过即时反馈 修正AI的推理过程 生成边界指AI模型在理解、创造与创新方面的能力极限,体现了其认知能力的实际限制。当用户的交 互触及或超越这一边界时,AI无法突破自身局限,进而引发思维滞环现象。该现象表现为AI在多轮对话中 重复内容、缺乏新意或无法满足用户的新增需求。这一现象反映了AI模型在复杂互动中的认知限制,影响 了其响应的多样性和实用性。未来学科划分:共生拓展 智启新程 人类如何驾驭人工智能/机器。 实现更高效、更和谐的协作, 提升人类的生活质量和社会效 率,提高生产效率 优化和提升人工智能的能力。 主要涉及AI的技术创新与发 展,涵盖基础理论、应用技 术以及未来可能的智能演进 人工智能科学 人机共生科学 • 人类增强技术:提升人类能力的研究。 • 人机交互设计:优化人与机器的互动。 • 情感计算研究:AI识别和表达情感。 • 社会共生理论:探索AI融入社会方式。 • 具身认知科学:研究身体对认知影响。 • 健康科技创新:技术促进健康与康复。 • 媒介共生学:AI在媒体中的应用。 • 机器学习算法:研究自我学习算法。 • 自然语言处理:AI理解和生成语言。 • 计算机视觉:AI解析图像和视频。 • 智能机器人学:开发智能机器人系统。 • 生成式AI技术:AI生成内容研究。 • 通用人工智能:探索全面智能系统。 • AI伦理安全:研究AI的伦理与安全。二 国内外大模型基座升级:快速演进 未来可期 03 2024.9.12 2024.2.15 2022.11.30 第 二 次 进 步 – 视 频 生 成 领 域 从静态图像生成向动态视频创作推进, 从认识二维平面到模仿三维世界 Sora使得AI从“图像绘制者”提升为“视频创作者” 第 一 次 进 步 – 文 本 生 成 领 域 从判断识别文本向理解生成文字发展, 从单一任务向通用智能迈进,OpenAI 掀起AIGC革命 ChatGPT使得AI从“特种模型”提升为“通用基座” 第 三 次 进 步 – 逻 辑 推 理 领 域 从“模仿智能”向“推理智能”演进, 从模仿人的常识到模仿人的思维 OpenAI o1使AI从“模仿者”提升为“慢思考者”生成机制:语料预学 推理输出 具体框架:以“我喜欢吃苹果。”为例 语料预训练 模型训练 假设我们有一个句子"我喜 欢吃苹果。"作为我们训练 语料的一部分。在训练期 间,模型将尝试学习句子 的模式和结构。 GPT-4使用了一 种叫做"多头注意 力"的技术,这允 许模型在不同的 注意力"头"中关 注输入的不同方 面。这可以帮助 模型更好地理解 输入的复杂性。 模型可能会看到"我喜欢吃 "并尝试预测出"苹果"。通 过这种方式,模型学习了 词汇,语法,以及一些语 义和上下文关系。 参数学习 通过预测任务,模型学习 了一组参数,这些参数可 以捕捉到输入文本的模式, 它们将在训练过程中不断 调整,以更准确地预测下 一个词。 模型推理 模型训练完成后,可以用 它来生成新的文本或回答 问题。假设我们向模型提 出一个问题:"我应该吃 什么水果?",模型会考 虑这个输入,根据它在训 练过程中学到的知识来生 成一个答案。模型可能会 回答"你可以试试苹果。" 注意力机制 在推理过程中,模型会使 用"注意力机制"技术来决 定哪些输入词对生成答案 最重要。例如,在上面的 问题中,模型可能会认为 "吃"和"水果"这两个词最 重要,因为这两个词直接 相关于应该选择哪种水果。 自回归生成 GPT-4模型在生成文本时 是自回归的,这意味着它 一次生成一个词,然后将 这个词添加到输入序列中, 以生成下一个词。这一过 程持续进行,直到生成一 个结束符号,或达到了设 定的最大。 多头注意力AI缺陷:臆造之辞 概率幻觉 AI幻觉(AI Hallucinations)是指生成式人工智能 模型在生成文本或回答问题时,尽管表面上呈现出逻 辑性和语法正确的形式,但其输出内容可能包含完全 虚构、不准确或与事实不符的信息。 AI幻觉的产生通常是由于模型在缺乏相关信息 的情况下,通过概率性选择生成内容,而非基 于真实世界的知识库或逻辑推理,这使得其输 出不仅难以信赖,且可能误导用户。 形成原因 除AI幻觉这一关键缺陷外,潜在的缺点与局限还包括 可解释性、计算成本、数据偏见、实时更新、数据安 全、个人隐私、恶意输出等。幻觉类型 数据可用 性 理解 能力 深度 语境精 确度 外部信息 整合能力 逻辑推理和 抽象能力 典型错误表现 数据误用 有数据 低 高 高 中 误用已有数据,回答 部分不符或细节错误 语境误解 有数据 高 低 高 中 对问题的意图理解错 误,回答偏离主题 信息缺失 无数据 中 高 低 中 未能正确获取或整合 外部信息 推理错误 部分数据 高 高 中 低 逻辑推理中存在漏洞 或错误假设 无中生有 无数据 低 中 低 低 在无数据支持下,生 成完全虚构的信息 AI幻觉:五类七特 虚实迷域 五“类” 七“特”OpenAI o1:跨代进化 推理优先 添 加 标 题 在金融领域的应用可以帮助分析复杂的市场数据,制定 投资策略,优化风险管理,提高金融决策的准确性。 在编程领域表现出色,能够生成高质量代码,优化算法, 帮助开发者提高生产力。 在教育领域帮助学生理解复杂的数学和科学概念,提供 个性化的学习辅导,提升教育效果。 在医学领域的应用提高诊断准确性,辅助医生制定个性 化治疗方案,提升整体医疗服务质量。 在科学领域推理能力显著提高,帮助研究人员进行更深 入的理论分析和数据解释,从而加速科学发现。 在内容创作和编辑方面表现优异,能够生成高质量的文 本,帮助作家和编辑提高工作效率。 在咨询领域能够帮助企业在市场趋势预测、战略规划、 资源优化等方面做出更加科学和高效的决策。  o1模型的社会影响 一 二 三 四 五 六 七  o1模型的价值 AI推理的跨代进化 暴力推理的工程突破 多领域的推理应用 “超智能Agents”的崛起 科学研究的辅助作用 教育领域的深入探索  人文社科研究能力排序 博士生 <4o < 博士≈o1 (理工科)<助理教授 ≈o1(人文社科) <副教授 <教授 <人机共生 (教授+AI)<人类一流专家 o1的认知推理能力,达到了理科博士和文科 助理教授的水平模式融合与进化 • ReAct+P&S:强化决策行 • Reflexion+Self-D:深度认 知 • LLMC+LATS:高效并行决策 • ...... • 多模态交互理解 • 跨场景推理决策 场景应用与突破 • 智能制造提质增效 • 医疗辅助决策支持 • 金融风控体系建设 • 提升预训练数据质量 • 优化提示词策略 • 增强工具调用能力 • 改进反馈机制语言大模型:群雄逐鹿 齐头并进 除OpenAI o1外
下载文档到本地,方便使用
共 183 页, 还有 1 页可预览, 继续阅读
文档评分
请文明评论,理性发言.