【胡栩睿】认知的展褶：生成式人工智能的技术审思—— 以Sora为引

摘要

文生视频大模型Sora超越了人工智能的文本表达结构，不断强化图像与视频的价值意义，其话语建构能力日益趋近人类的创作水平。这种“超能力”背后隐喻着“技术”的本质。生成式人工智能的技术机理主要通过资源堆叠、机器学习与序列预测来实现，其中资源堆叠奠定了智能根基、机器学习促进了知识萃取、序列预测形塑内容体系。世界模拟想象和人机关系演进共同构筑了生成式人工智能的意义价值。然而，随着生成式人工智能的普泛化渗透，其遮蔽的想象塌缩、资源消耗以及内容速朽等困境日渐凸显，亟须通过价值对齐、黑箱稀释等实践方式回应人机协同进化的时代命题。

[关键词] 大模型；生成式AI；机器学习；Sora；人工智能；人机关系；AI技术-社会协同

Sora的横空出世将人们的目光再一次引向人工智能这一技术迭代如火如荼展开的概念范畴之中。伴随技术火热的一方面是社会行业的广泛关注，另一方面则是学界研究的展开。在学界认知深化与业界革命促动的交相辉映之下，人们对于Sora、ChatGPT等现象级人工智能产品有了更为细致、清晰的具象认知。然而，细究OpenAI最新的技术文档可以发现，Sora在模型架构、训练方法上更多的是对现有技术路线的优化，并未有颠覆式的技术革新，其应用潜能仍是建立在规模法则（Scaling Law）的大模型（Large Model，LM）开发上，因而其更象是技术路线量变积累的结果，而非断裂式的质变。

德勒兹（Gilles Deleuze）在对巴洛克艺术风格的论述中以“褶子”（fold）的概念强调了一种多元、复杂的思考方式[1] 16-21，旨在帮助我们更好地理解和把握世界的复杂性与多样性。因此对于生成式人工智能的考察视角显然不能拘囿于单一的产品特性，而是需要深入透视其技术机理，以此勾勒关于生成式人工智能社会认知与实践应用整体谱系，并进一步为人工智能时代个体融入社会以及AI技术潜能的充分释放构建良好的理论与实践框架。有鉴于此，本文尝试从Sora这一生成式人工智能最新产品出发，结合业已渗透至生活日常情景的ChatGPT等AI应用，通过拆解、归纳生成式人工智能核心机理的方式触摸伏脉其中的技术意蕴，并在梳理技术公司等话语主体关于生成式人工智能实践应用的多元价值铺陈以及驳杂社会想象的同时对其实践现状进行追问，进而探求人机协同进化的未来进路，最终勾勒出关于生成式人工智能应用与想象的更为全面的技术图景。

一、技术拆解：生成式人工智能的机理透视

作为一种能够自主创造新内容的AI技术，生成式人工智能的核心在于理解和模仿现有数据模型，进而在用户提示词（prompt）的引导下输出基于既有内容形态的全新内容。拆解其技术机理后可发现，对这一生成能力的认识实则可划分为三个更为具体的维度：资源堆叠下的智能涌现、机器学习中的知识萃取以及序列预测下的内容编织。

（一）资源堆叠积淀智能涌现根基

2020年，OpenAI首次提出了基于规模法则的模型训练方法，即模型性能会在大算力、大参数、大数据的加持下持续提升，这一法则适用于包括语言模型在内的多模态模型[2]。这一法则精准地诠释了生成式人工智能的重要技术机理，即基于算力与数据等资源堆叠所形成的智能涌现。涌现（emergence）作为描述复杂系统中由系统数量变化所导致行为质量变化的重要概念，已成为大语言模型所特有的一种能力[3]。具体而言，资源堆叠可归纳为两个层面：一是涵盖文本、图像等多模态信息的数据资源，二是以GPU（Graphics Processing Unit）、TPU（Tensor Processing Unit）等硬件设施所组成的算力资源。

数据是生成式人工智能学习和创造的基础资源。一方面，生成式人工智能需要大量数据来学习人类潜在的知识结构与模式，文本、图像等多模态内容能够帮助模型捕捉到对应领域的复杂特征和统计规律，从而在用户新输入新数据的提示下生成合理、连贯的内容。另一方面，数据还可用于人工智能的持续学习与迭代优化，用户的反馈、新数据的加入能够在人类反馈强化学习（RLHF）、指示学习（Instruct Learning）等学习技术的加持下不断调整和优化模型，促进其智能进一步涌现。正是庞大的数据学习催生了ChatGPT等一系列备受瞩目的生成式人工智能产品。公开数据显示，GPT-3的参数量达1750亿，预训练数据量为45T；GPT-4的参数量则高达1.8万亿。而在其他同期产品中，meta开源模型Llama3训练数据量超过14万亿个token，Claude3的训练数据量也在万亿级别或更高。由是观之，庞大的数据资源已成为大模型发展的重要依托。

如果说数据是大语言模型智能涌现的燃料，那么算力则可被视为生成式人工智能发展的重要助推器。强大的算力不仅能显著缩短模型的训练时间，促进模型快速迭代；还能提升生成式人工智能在应用场景中的响应效率，拓展大模型的应用边界。自互联网诞生以来，人类便已生产出数以万亿计的数据，但人工智能的发展并未同庞大的数据生成同步展开，其发展的掣肘主要源自彼时的算力尚不足以支撑庞大的数据处理工程。随着辛顿（Geoffrey Hinton）等人在神经网络训练中发掘出GPU在深度学习中的潜力[4] 84-90，即借助GPU的带宽优势实现大规模数据的并行处理。GPU的强大算力使得深度学习中的算力瓶颈得以突破，人工智能的发展也在此过程中迎来了指数级增长。

（二）机器学习加速知识萃取进程

人工智能若仅止步于吸收与储存人类的文本、图像及视频等多模态信息，将可能退化为一个功能增强版的搜索引擎，而非真正意义上的智能体。其中所涉及的数据存储等必要条件不仅会造成更为极端的资源消耗，还会因数据的过度拟合而失去泛化能力。泛化能力是机器学习的关键，它能确保机器理解所学数据并将其推广到一般情况。具备良好泛化能力的模型能够依据训练数据中所学习到的知识，就用户输入的数据或提示给出更为准确合理的输出结果，从而提升人工智能的通用能力，因此可视为通往AGI（通用人工智能）的关键。而在提升人工智能泛化能力的过程中，压缩（compression）已成为包括大模型在内的生成模型的固有优化目标。在香农（Claude Elwood Shannon）看来任何信息的编码均可被量化，通过基于信息出现频率差异的异质编码便能够实现信息的压缩[5]。信息压缩的过程在于通过减少数据冗余，并利用数据的统计特性在减少表达所需比特数的同时尽可能保持信息的完整性和可恢复性。数据压缩通常包含两个阶段：首先是将原始数据转换为更加规则或统计特性更为明显的形态，然后再借助熵编码、行程长度编码等编码技术有效利用数据中的统计规律，进而实现数据的高效存储与传输。除此之外，对于一组数据的最佳解释是对该数据进行尽可能短而准确的描述，模型的泛化性和推理能力的优越性与描述长度存在显著相关性。因此为进一步提升模型性能，数据在压缩时应遵循最小描述长度（Minimum Description Length，MDL）原则，即在压缩数据的同时保持足够的信息量以准确预测和理解数据。OpenAI团队负责人Jack Rae曾在一场学术分享会上坦言大模型的本质实际上是一个性能强大的数据无损压缩器。可见，压缩的过程实则建立在对于数据规则、统计特性等规律的寻找之上，其中便已经具备了智能的大致轮廓。

弗鲁塞尔（Vilém Flusser）曾在就人类存在过程的“文化史现象学”考察的过程中指出，由现代人所创造的零维度量子世界使一切呈现的可能性都转变为一场组合游戏[6] 14-15。这一判断与当前人工智能知识生产逻辑不谋而合。在语言模型中，处理和生成文本的基本单元是“token”，它是一种编译后具有意义的可作处理单元的字符串实例；而在以Sora为代表的文生视频大模型中，通过在算法上融合diffusion和transformer两种架构，这一基本单元则是视觉切片（visual patches），这是一种经特定视觉编码器压缩后的包含时空信息的低维数据格式，能够承载生成视频的关键时空特征与动态变化信息。可以说，token实现了代码、数字及各种自然语言的统一，patch则整合了图像与视频等多模态信息。通过将复杂的信息整合至基于“0”“1”的数字编码中，不仅能够在减少存储需求的同时加速计算进程，还能显著提高模型的可移植性和可部署性，从而使人工智能发展不断向通用人工智能这一终极目标迈进。

（三）序列预测助力内容编织

法国数学家博瑞尔（Emile Borel）曾在《统计力学与不可逆性》中提出了“无限猴子定律”（infinite monkey theorem），指出一只猴子在打字机上随意敲出一部《哈姆雷特》在概率上的可能；维利里奥（Paul Viritio）则在考察视觉机器的技术逻辑时注意到其内含的统计学意蕴，认为合成图像事实上是一种通过对组成数码再现像素的快速计算，并对紧随其后的像素进行分析解码进行生成的统计方法[7] 145。博瑞尔的思想实验和维利里奥的深刻洞察共同揭示了生成式人工智能的基本运作逻辑，即二者均试图表明连贯、自然的内容生成在一定程度上可视为一场概率游戏，通过基于既有信息的预测方法能够得到有效、期望的反馈结果。这种对现有及紧随其后像素进行计算的技术洞察显然已经触及当前人工智能内容生成的根本逻辑，即一种基于既定内容的概率链预测。这一观念在当前基于大模型的生成式人工智能中得以贯彻，并形成了基于NTP（next token prediction）的技术框架。NTP策略强调通过深入挖掘既有的文本和上下文信息，精确预测序列中每个位置的后续词汇，此乃构建高效语言生成与理解系统之关键。NTP远非单纯的统计技巧，它是对机器理解语言深层含义及知识图谱能力的度量，体现了从纷繁数据中提炼意义、压缩并表达世界本质的能力。因此，NTP不仅构成了高级语言处理技术的应用基础，也反映了人工智能在逼近人类语言智能方面取得的实质性进展。OpenAI首席科学家在接受采访时也不断暗示NTP在GPT系列大模型成功中的关键作用。

需要强调的是，基于概率的序列预测使人工智能的内容生成存在一定的不确定性。一方面，这种不确定性是由个体与机器间的知识差异所催生的。实际上人们在输入相关提示词时会预设一定的输出结果，这种预设结果是个体基于自我经验及知识储备所生成的内容，但个体经验显然无法超越已进行海量数据学习的AI的内容储备，个体建构与机器生成之间的资源差异使内容生成的不确定得以凸显。另一方面，经过海量数据学习的大模型能够在更大的范畴内遍历可能的结果，因此可能会生成多个符合概率分布的内容预测。乔姆斯基（Chomsky）在一次采访中直言ChatGPT只是一种通过访问海量数据生成不规则字符串，并以组合的方式使其看起来像人类作品的高级剽窃工具[8]。乔氏的断言虽略显激进，但在一定程度上触及到生成式人工智能基于概率预测组合的技术实质，而这也是其在相同提示词下输出差异化内容的重要原因。人工智能在内容生成上的不确定看似影响了其在应用过程中的可信任度，但也正是不确定性的存在为智能的涌现奠定了必要的生成条件。法国技术哲学家西蒙东（Gilbert Simondon）便指出机器真正的完美性或者说技术性程度的提高是由一种不确定性范围来界定的，这种不确定性范围能够赋予机器对外来信息的敏感性[9] 3。换言之，机器的成熟并不单纯依赖于其遵循预设指令的精确度，而在于其是否能在不确定的环境下展现出灵活的学习能力，这关乎复杂多变的现实世界中机器与人互动的动态性与适应性。由此看来，序列预测驱动的内容生成不仅仅是一场逻辑严密的概率游戏，更是人工智能通往更高维度智能的一座桥梁。它不仅要求AI在统计学与逻辑推理上达到新的高度，还促使其在不确定性环境中稳定发挥创造潜力与技术适应力，从而为AGI的实现奠定坚实的技术基底。

二、意义展褶：生成式人工智能的应用想象

对于生成式人工智能这一现象级技术物，技术公司往往会通过技术脚本操演的方式为大众摹画一幅人机和谐共生的应用蓝图。但作为一款持续迭代进化的产品，其技术发展中还蕴含着驳杂的社会想象以及多元的价值铺陈，因此需要在展开技术褶皱的过程中窥视生成式人工智能的复杂机理，以此形成更为全面多元的整体观照。

（一）世界模拟想象

OpenAI在技术报告中将Sora定义为一款世界模拟器（World Simulator），并旨在将其作为“构筑物理世界通用模拟器的一条可行路径”[10]。在其发布的视频样片中，不论是雪地中嬉戏的小狗，还是东京街头漫步的女子，抑或是屋内花朵绽放的定格动画，其真实的景别呈现以及人物形象刻画无不让人感叹其强大的现实场景还原能力。从这一维度而言，Sora似乎已经初步掌握模拟物理世界的能力，其在内容生成上愈发精细的编辑可能性以及更为突出的连续图像处理能力使人们对生成式人工智能的内容创作前景抱以乐观的态度，并向外投射出社会对于世界模型（World Model）的再度思考。

从曾经元宇宙的平行世界到如今Sora的世界模拟（World Simulation），人类似乎执着于探索构建与现实同在的虚拟世界。这一追求映射出人类对创造、控制与理解世界本质的深切渴望。元宇宙概念曾激发了人们对一个沉浸式、交互式虚拟环境的无限遐想，它被设想为一个超越地理界限、融合现实与数字体验的崭新空间。而在人工智能的技术版图中，世界模拟或世界模型实际上是一种高级的理论框架与实践方法，旨在通过构建复杂的、动态的计算模型来模仿和预测真实世界的结构、行为及其内在规律。戴维（David Ha）等人曾在人类认知系统的启发下将智能体世界模型划分为三个紧密相连、协同工作的组件，分别为视觉（Vision）、记忆（Memory）和控制器（Controller）[11]，其工作流程是通过控制器将视觉感知模块观察到的高维内容压缩为一个小型表征性代码，并通过内置的记忆模块根据历史信息对未来状态做出预测。而在实际应用过程中，世界模型旨在建立一个可反复试错的环境以推动制定现实最优决策，其核心作用便是通过反事实推理（Counterfactual reasoning）模拟生成数据中并未存在的决策。可见，由人工智能所驱动的世界模拟更像是优化、调节现实世界的模拟器，试图在虚拟环境中复现人类社会的动态互动与经济活动，这不仅是一种促进人类复归自然的技术尝试，也能在反复的调试中触摸物理世界真实的内在本质。然而，弗鲁塞尔在对由计算（Komputationen）重构的经济情景与“现实中的经济状况”间的切实程度进行追问的过程中指出，其间弥漫的不真实会让人产生不寒而栗的颤栗感（Gruseln）[6] 5，而在世界模拟所营造的虚拟空间之中，这一问题同样值得深思。

除此之外，作为一个承载宏大科技愿景的技术概念，“世界模拟器”在一定程度上仍属于科技公司精心编织的“技术脚本”，旨在通过这样的方式引导社会的技术想象，并借此争夺人工智能发展所需的技术资源。OpenAI正是凭借对话模型ChatGPT、文生视频大模型Sora等生成式人工智能的先发优势而获得极大的关注与资源倾斜，以至于其后的Gemini、Claude等大模型即使在性能上与其相差无几，却都只能被视为暗淡的“追随者”。由此可见，单一企业主导的技术叙事框架会在一定程度上遮蔽技术发展的多样可能，因而需多视角地整合信息，以更加全面的认知视野去洞穿那些特定利益导向所营造的信息壁障。

（二）人机关系演进

生成式人工智能技术的涌现，正深度重塑着人类社会的劳动关系架构与人机交互的内涵。以ChatGPT、百度文心一言为代表的对话式人工智能，凭借其精湛的自然语言处理能力，已作为智能行动者积极参与到人类社会的沟通网络之中，并在一定程度上重塑着知识获取与生产的传统范式。生成式人工智能通过模拟复杂的人类语言表达与创新思维过程，极大提升了交互体验的自然流畅度与感知的真实性，从而在操作层面沟通了横亘于人机间的交往隔阂，模糊了传统二元对立的人机界线。此番转型不仅革新了个体内在与技术外在互动的模式，还激起了对信任机制重构、社会结构动态调整的深度哲学与社会学层面的反思。

首先，从信任与依赖的理论维度看，生成式人工智能在信息处理的高精度、个性化服务定制及创意内容自动生成上的高效表现，有效增强了用户的信任基础与长期使用意愿，同时，这也引发了围绕技术自主权限、隐私权益保护以及人机协作责任归属的伦理与法理学争议。这一系列复杂议题迫使我们重新评价科技进步与个体自由、隐私权维护之间固有的紧张关系，并探索设计符合信息时代需求的法律框架与伦理规范体系，以协调技术发展与个体权利的和谐共存。

其次，生成式AI对于劳动市场结构与职业生态存在潜在的颠覆性影响。自ChatGPT面世以来，社会中对于文案创作、语言翻译等职业领域的自动化替代焦虑已初露端倪；而在Sora这类文生视频大问世后，更是进一步引发了影视制作、广告创意等具备较高从业门槛的行业对自身未来角色定位的思考。随着生成式人工智能技术应用的广泛铺开，人机深度融合将成为未来劳动形态的新常态，这对社会个体迅速适应技能更新提出了更高要求，同时，在宏观层面上，如何应对AI对教育体系的重塑、职业发展路径的重新规划以及确保社会公平正义，成为亟待解决的重大课题。为缓解技术革新可能引起的就业结构失衡，教育体系的前瞻性改革、终身学习理念的普及以及政策制定者的主动介入或将成为维护社会稳定与进步的关键环节。

三、实践追问：生成式人工智能涌现的困境遮蔽

生成式人工智能技术的迅猛发展与快速迭代催生了涵盖自然语言处理、艺术创作在内的一系列创新应用，其影响力已广泛渗透至社会生活的各个角落。然而，在这股技术浪潮之下，为其所遮蔽的困境与挑战亦亟待进行深入而细致的反思与探讨。

（一）塌缩的世界想象

利奥塔（Jean-Fran?ois Lyotard）在考察最发达社会（the most highly developed societies）中的知识传递这一话题时指出，知识可经由计算机语言转译，并通过数据库替代图书馆等传统存储器实现与学生使用的智能终端的连接，这些数据库将成为后现代人的“自然”[12] 177-178。换言之，在高度发达的现代社会中，经由二进制转换的数字“世界”将逐步侵占人们对于现实物理世界的关注，人类的认识活动也将建立在同数据库的对话之上。ChatGPT、Sora、Suno等生成式人工智能的普泛应用逐渐构建起涵盖图文、音视频的多模态内容生成矩阵，基于提示词“唤起”的内容生产模式已然成为数智社会的重要表征，这似乎在一定程度上印证了利奥塔的深刻洞见。即便内容的生成仍很大程度上依赖于人类的文字提示与描述，但AI实则基于自身对于世界及内容的理解“接管”了内容生产的最终走向，从而成为内容生产的代理人和真正实践者。在这种技术主导文化偏好和内容创作方式的现实境遇下，“想象力塌缩”便成为一种悲剧性的可能。

首先，就Sora这类凝聚多模态生产能力的人工智能而言，尚未了解其运作机理的普通用户可以将其视为一个文字转视频的视觉装置。但这一内容模态的转化过程并非简单的输入与输出，而是需要介入更为复杂的信息处理过程：人们首先需要将大脑中的视频构想抽象化为线性的、富有逻辑的文字，然后将其作为提示词引导智能机器输出对应的内容。然而，当思想抽译为文字，再经过智能机器转化为二进制代码，最后通过概率式的预测输出具象的视频内容时，原本自由流淌的想象力便逐渐沦为规范、严谨的数字比率，最后通过预测生成的文本或视频无疑是对人类想象力的一种侵吞与蚕食。

除此之外，抽象的文字凝练本身是一种极具挑战的认知程式，并非所有人都具备将大脑中飘渺的想法凝结为文字的能力。因此在实际使用过程中输出的内容必然只能无限趋近于人们的颅内想象，或者说人们是在观看生成的视频后才逐渐将大脑中原本模糊的画面进一步明晰。由此便牵涉出文生视频的二重想象折损：一方面，人们试图通过高信息密度的文字转译大脑中尚未成型的画面想象，但抽象文字实则无法将此类想象完全统合归纳，由此便形成了想象力的第一重折损；而当人们借助Sora这类文生视频模型将文字中介的大脑想象具象化为视频后，受首因效应、路径依赖等心理机制的影响，AI生成的视频会极大地影响人们后续的思考方式。也就是说当人们再次唤起相关的内容想象时，便会不自觉地代入最初由AI所生成的信息，进而限制个体对于相关事物的想象。同时，大模型训练过程中对于人类已有数据的把握，也使AI生成内容无法跳脱已有的认知边界，自然也无法精准还原人类天马行空的无尽想象。可见，如果Sora的应用最终指向普通个体，那它必然会处于人类想象力拉扯的舞台中心，一边是认知经验固化所带来的想象塌缩，另一方则是浸润技术环境中人们对于AI还原想象的技术依赖，人类独有的、经由沉浸式的思考所激活的创造力天赋也由此面临被搁置的风险。

（二）失语的资源消耗

自ChatGPT触发全球范围内的人工智能热潮以来，学界与业界的聚焦点多集中于该技术的应用潜能、风险评估及相应规制框架的构建方面，却相对忽视了其作为商业化产品的基本属性。此现象揭示了一个值得深究的维度：人工智能，尤其是生成式人工智能，作为一种重度依赖数据与算力资源的创新产品，其资源消耗问题是一个不容回避的议题。

控制论先驱诺伯特·维纳（Norbert Wiener）曾强调信息的传递是建立在能量消耗的基础之上[13] 39。在生成式AI的实践图景中，这种消耗体现在两个关键环节：一是模型训练阶段对既有数据集的深度学习与模式提炼；二是用户交互时的即时反馈与个性化信息处理。前者重度依赖于GPU、NPU等核心运算硬件，后者则在硬件依赖的基础上强调云服务的接入，这种双重信息传递机制无疑需要庞大的能源作为基础设施支撑。相关产业报告显示，前沿模型的训练成本已经达到前所未有的水平。GPT-4预估使用了7800万美元的计算资源进行训练，谷歌的Gemini Ultra计算成本更是高达1.91亿美元[14]。相比之下，此前发布的Transformer模型（2017年）与RoBERTa Large（2019年）的训练成本则分别约为900美元与16万美元。虽然当前生成式AI的供应厂商已经通过会员服务等方式实现部分盈利，但面对巨量的资源消耗，此类收益显然是杯水车薪。随着技术向日常生活领域的加速渗透，遵循资本增值逻辑的企业势必通过提高服务费用等方式实现成本分摊，进而无形中构筑起不同社会阶层间技术可及性的新壁垒。

此外，海量资源的投入直接映射于模型性能的显著差异。OpenAI即凭借其在数据与算力上的大规模投资，不断引领着人工智能领域发展方向，其ChatGPT模型在英语自然语言处理上的卓越表现便是明证。而中文领域尚存的发展空间，也为本土生成式人工智能的发展提供了追赶的契机。由此可见，大型模型效能的提升高度依赖于海量数据的学习，这一过程不仅需要海量文本、音视频等多模态资源，更伴随着巨额资本的注入。这使得人工智能的发展路径不可避免地遭受资本主义经济逻辑的影响。OpenAI最初高调宣称将借助通用人工智能造福全人类，但在资源消耗日益加剧的背景下，开源的选择不得不陷入两难境地：一方面是个体企业成本回收的难题，另一方面则是闭源可能导致的社会资源重复配置与浪费。在现行资本主义框架内，如何平衡这两方面矛盾，短期内似乎难以觅得理想解决方案。

（三）速朽的内容生成

以ChatGPT与Sora为标志的生成式人工智能大模型，其运作核心在于持续的数据滋养，旨在确保生成内容与提示指令的高度契合。这意味着为满足个体在人类社会日益丰富多元的经验背景与知识迭代中的需求变化，生成式人工智能的学习必须不断获取新兴的数据资料。这一显著的数据依赖性将Sora等AI的内容创造置于矛盾的境地：一方面，AI内容生成的本质是对人类想象力的模拟与回应，而想象与现实的固有差距，要求生成过程高度敏感于用户提示的微妙调整，由此生成的内容便展现出一种瞬时性特征，即永恒地在反映人类想象的镜像中徘徊，却难以触及持久的创造性深度。另一方面，伴随用户基数的增长，AI视频在网络空间的泛滥，以其超高的生成效率逐渐压缩人类原创内容的生存空间，预示着人工视频可能面临边缘化风险。更为关键的是，这些充斥网络的AI产出物，最终将回馈至如OpenAI等技术公司的训练数据库，形成一种“数据反馈循环”，其中蕴含的大量低质或重复内容如同“数据泔水”一般。依据“垃圾进，垃圾出”机器学习法则，不可避免地对AI的后续学习质量构成挑战，进而同人类所追求的高质量智能发展的目标背道而驰。

此外，生成式AI对世界的理解，根植于算法逻辑与“0”“1”二进制编码构建的数字化宇宙，是弗鲁塞尔笔下点状、零散分布的高度抽象产物。这意味着其所有的认知活动均通过编码的中介进行，与物理现实世界的直接接触并非其本质属性。因此，AI所生成的内容实质上是对虚拟信息的解码与再构建，以及基于数字转换的虚拟场景与叙事再造。尽管文本本身作为一种现实的抽象转译能够帮助ChatGPT等对话式AI营造出难以辨识真实与虚构界限的交流体验，但Sora等文生视频技术的出现则更深层次地将现实世界抽象化、虚像化，数字比特重组拼接的内容生成在一定程度上丧失了现实世界中经验的直观与真实，仅留存数字化转化的痕迹。同时，这一过程亦凸显出生成式AI在模拟现实与创造新知方面的局限性，以及其内容生成背后版权所属、责任界定等复杂的技术与社会伦理议题。

四、人机协同：生成式人工智能的未来进路

海德格尔（Martin Heidegger）曾对技术中性的话语进行批判，认为这一论调使人类对技术之本质盲然无知[15] 3。美国技术哲学家兰登·温纳（Langdon Winner）则将技术视为一种异质性主体，指出其在发展过程中会逐渐进化为一种自主、独立的自主性力量[16] 13。人工智能内在的价值负荷以及算法运作中不可避免的黑箱也揭示其非价值无涉与中立的基本属性，因而对生成式人工智能未来发展路径的展望不应单纯聚焦于技术如何为人类所用，而应将其视为能动的行动者，进而聚焦人与机器的协同进化路径。

（一）价值对齐疏导人机潜在冲突

能力日益增强、应用场景不断泛化的生成式人工智能已逐渐渗透至人类社会生产的多个方面，但机器学习的不可控性、算法的黑箱特性等技术特质使其在生成内容上存在错误信息（misinformation）、幻觉（hallucination）、不一致信息（inconsistency）等不准确信息和偏见、隐私敏感内容等不良信息以及诸如意识（Awareness）、欺骗（Deception）、权力寻求（Power-Seeking）等足以引发人机冲突的潜在隐患。这类内容的出现不仅限制了AI的应用场景，更引发了社会对于人工智能潜在风险的忧虑，因而需要在人工智能发展的未来图景中注入价值对齐的技术因子。

诺伯特·维纳（Norbert Wiener）曾在就人机关系的考察中指出，可通过确定机器中所输入的目标与行动期望（desire）是否相符的方式在无法有效干预运行的机器中达到特定目的（purpose）[17] 1355-1358。作为控制论之父，维纳的深刻洞见在一定程度上奠定了人机价值对齐方法范式，即通过预先植入人类标准的方式避免机器出现有悖于人类期望的行动偏向。在机器复杂程度日益提升的数智时代，价值对齐（Value Alignment）旨在使人工智能系统的行为与人类的意图和价值观相一致，进而确保其能够捕捉到我们的规范和价值观，理解我们的意图并以我们想要的方式行事[18] 10，使其更好地融入人类社会并促进技术与社会的和谐共处[19] 415-418。实践层面的价值对齐主要涵盖前向对齐（Forward Alignment）与后向对齐（Backward Alignment）两个维度。前者通过反馈学习、分布偏移学习等对齐训练实现，后者则借由安全评估、生成测试用例（red teaming）等保险（Assurance）方式以及政府法规、实验室自治等治理（Governance）方式实现对齐细化[20]。而通过技术设计实现人工物系统中“价值偏差”最小化的价值敏感性设计亦是价值对齐的可行路径之一[21] 77-83。

同时，我们还应注意到头部AI产品对于价值对齐的“定义权”。汉娜·阿伦特（Hannah Arendt）曾在就“工具制造者”的反思中指出，技艺人所创造产品的“客观”目的能够决定器具的合用与精确程度[22] 111。这启示我们在涉及人机价值对齐的理性实践中更应关注作为人类社会普遍遵循的“客观”价值，不能因技术公司主导的AI产品的先进程度而将这一重要的定义权让渡，以此维系人类社会中伦理、道德规范等价值的公共属性，避免人机间的关系冲突。

（二）黑箱稀释构筑人机信任纽带

信任是人机关系得以良性发展的重要依托，也是人工智能治理得以实施的前提和基础。对于人工智能技术开发、配置和使用的信赖不仅是技术的内在属性和要求，也是设计人工智能应用技术-社会系统的属性所指[23] 44-51。然而，作为生成式人工智能的底层技术之一，深度神经网络（DNNs）的“黑箱”本质及其广泛的参数化妨碍了自动驾驶、医疗等关键应用中所需的透明度的展示，从而引发了人们对于高风险环境下大模型可靠性的担忧。即便能够将规模法则作为其智能快速迭代的理论参照，但其核心机理仍不为人们所知。因此在通往人机协同的通用人工智能道路上，对于人工智能技术黑箱的稀释将成为其持续发展不可规避的技术使命与追求。

在此背景下，可解释人工智能（Explainable Artificial Intelligence，XAI）已然成为一条理想的技术路径。其旨在为当今强大但不透明的深度学习模型带来透明度，局部解释与全局解释是当前XAI研究中两条主要的技术路线：前者以属性图（attribution map）的形式解释单个预测，后者则在可视化模型的过程中习得编码概念[24] 1006-1019。除此之外，XAI包括三个核心范畴。一是深度模型的解释，旨在同各阐明模型在每个实例基础上的预测理由提升透明度和信任；二是聚焦训练数据的影响，通过准确指出对模型输出产生巨大影响的数据点，促进训练过程的改进以及模型的简化；三是关注领域知识的洞察，进而为其高风险领域中的应用提供有益的指导[25]。目前，以OpenAI为代表的头部AI企业已投入到可解释人工智能的研究进程中。2024年6月，OpenAI在其新发布的技术论文中提出通过改进稀疏自编码器（Sparse Autoencoders，SAEs）提升GPT-4的可解释性，这一方式通过识别神经网络中对输出结果产生重要影响的“特征”来增进模型的可解释性，进而提高模型整体的透明度和泛化能力。由是观之，智能黑箱的破解不仅是人工智能发展的技术追求，也是借由信任纽带提升人机协同进化进程的行动所指。

五、结语

在关于后现代知识结构及其性质的考察中，利奥塔指出未来的教育将不再是内容的撒播，而是传授终端的使用，即“向哪里提出问题？怎样提出问题才能避免错误？”[13] 177-178。随着生成式人工智能的迅速迭代以及于人类日常生活的深入渗透，人类似乎已经步入利奥塔所预见的世界：人们怀揣特定的问题向ChatGPT寻求答案；抑或是将自己的想象诉诸文字，然后经由Sora等文生视频模型予以具象呈现……生成式人工智能从多个维度为人类的交往方式、知识生产注入新的可能，在此过程中人类似乎也始终以主体性的姿态对智能体提出需求。但我们不应就此忽视行动网络中智能体的能动潜力以及技术生态的整体性，也不应在技术迅猛迭代之时过分趋鹜于新兴产品的崭新特性，而是应该尝试用类型学的方法触碰伏脉其中的技术肌理，深入分析它们是如何嵌入社会系统，如何影响人类的认知习惯、社会关系以及文化生产，进而为技术发展注入更为全面、深远的人文考量。

对于生成式人工智能所触发的生态变革可能性，目前虽未有定论，但其作为技术发展史中的关键节点俨然已成共识。在此背景下，研究者与决策者需超越对新兴技术表层特性的追逐，转而聚焦于长远的技术-社会协同进化路径。这意味着在思考人机关系时应摒弃二元对立的替代论调，而应通过价值对齐、黑箱稀释等实践举措强调技术适应性融合下的协同进化。通过深入探讨其在可预见历史时段内的发展趋势，以及如何在确保技术进步与人类价值体系和谐共生的框架下，推动技术的负责任发展。

[参考文献]

[1] 吉尔·德勒兹.褶子：莱布尼茨与巴洛克风格（修订译本）[M].杨洁,译.上海:上海人民出版社,2021.

[2] J. Kaplan, Sam McCandlish, T. Henighan, et al. Scaling Laws for Neural Language Models[EB/OL]. ArXiv,https://arxiv.org/pdf/2001.08361.

[3] Jason Wei, Yi Tay, Rishi Bommasani, et al. Emergent Abilities of Large Language Models[EB/OL]. ArXiv,https://arxiv.org/pdf/2206.07682.

[4] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,(6).

[5] C. Shannon. A mathematical theory of communication[J]. Bell Syst. Tech. J., 1948.

[6] 威廉·弗鲁塞尔.表象的礼赞：媒介现象学[M].周海宁,许凌波,周轩,译.上海:复旦大学出版社,2023.

[7] 保罗·维利里奥.视觉机器[M].张新木,魏舒,译.南京:南京大学出版社,2014.

[8] 乔姆斯基谈ChatGPT：这是一种高科技剽窃[EB/OL].澎湃新闻,2023-02-25.https://www.thepaper.cn/newsDetail_forward_22066562.

[9] 吉尔贝·西蒙东.论技术物的存在模式[M].许煜,译.南京:南京大学出版社,2024.

[10] OpenAI. Video generation models as world simulators[EB/OL].2024-02-15.https://openai.com/research/video-genera

tion-models-as-world-simulators.

[11] David Ha, Jürgen Schmidhuber. World Models[EB/OL].ArXiv,https://arxiv.org/pdf/1803.10122.

[12] 让-弗朗索瓦·利奥塔尔.后现代状态：关于知识的报告[M].车槿山,译.南京:南京大学出版社,2011.

[13] Norbert Wiener. The Human Use of Human Beings: Cybernetics and Society[M]. New York: Doubleday,1954.

[14] Stanford HAI. 2024 AI Index Report[EB/OL]. https://hai.stanford.edu/research/ai-index-report.

[15] 海德格尔.演讲与论文集[M].孙周兴,译.上海:生活·读书·新知三联书店,2005.

[16] 兰登·温纳.自主性技术：作为政治思想主题的失控技术[M].杨海燕,译.北京:北京大学出版社,2014.

[17] Norbert Wiener. Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers.[J]. Science,1960,(3410).

[18] 布莱恩·克里斯汀.人机对齐[M].唐璐,译.长沙:湖南科学技术出版社,2023.

[19] Russell S , Hauert S , Altman R ,et al. Robotics: Ethics of artificial intelligence[J]. Nature, 2015, (7553).

[20] Ji J, Qiu T, Chen B, et al. AI Alignment: A Comprehensive Survey[EB/OL]. AarXiv, https://arxiv.org/pdf/2310.19852.

[21] 张浩鹏, 夏保华.价值敏感性设计透视：背景、现状、问题与未来[J].自然辩证法研究,2023,(4).

[22] 汉娜·阿伦特.人的境况[M].王寅丽,译.上海:上海人民出版社,2009.

[23] 顿新国.可解释人工智能问题[J].江苏行政学院学报,2023,(3).

[24] Achtibat R, Dreyer M, Eisenbraun I, et al. From attribution maps to human-understandable explanations through Concept Relevance Propagation[J]. Nature Machine Intelligence, 2023,(9).

[25] Xiong H, Li X, Zhang X, et al. Towards Explainable Artificial Intelligence (XAI): A Data Mining Perspective[M]. arXiv,2024.

原文引用：胡栩睿.认知的展褶：生成式人工智能的技术审思—— 以Sora为引[J].决策与信息,2024,（9）:87-96.

来源：《决策与信息》2024年第9期

作者：胡栩睿，男，四川资阳人，河南大学新闻与传播学院硕士研究生。

责编：胡梁实习生：秦溢

微信编辑：汪生

扫码关注

本文地址：http://b520j1985.cs-ej.cn/quote/10626.html 成事e家 http://b520j1985.cs-ej.cn/ , 查看更多