AIGC的13个数字智能关键领域的重要问题-朱嘉明

AI行业快讯2年前 (2023)发布 senki

10,754 0 0

2022年，在集群式和聚变式的科技革命中，人工智能生成内容（artificial intelligence generated content，AIGC）后来居上，以超出人们预期的速度成为科技革命历史的重大事件，迅速催生了全新的科技革命系统、格局和生态，进而深刻改变了思想、经济、政治和社会的演进模式。

第一，AIGC的意义是实现人工智能“内容”生成。人们主观的感觉、认知、思想、创造和表达，以及人文科学、艺术和自然科学都要以具有实质性的内容作为基础和前提。所以，没有内容就没有人类文明。进入互联网时代后，产生了所谓专业生产内容（professionally generated content, PGC），也出现了以此作为职业获得报酬的职业生产内容（occupationally generated content, OGC）。与此同时，“用户生成内容”（UGC）的概念和技术也逐渐发展，由此形成了用户内容生态。

内容生产赋予了Web 2.0的成熟和Web 3.0时代的来临。相较于PGC和OGC、UGC，AIGC通过人工智能技术实现内容生成，并在生成中注入了“创作”，意味着自然智能所“独有”和“垄断”的写作、绘画、音乐、教育等创造性工作的历史走向终结。内容生成的四个阶段（见下图）：

图0-1 内容生成的四个阶段
资料来源：作者绘制

第二，AIGC的核心技术价值是实现了“自然语言”与人工智能的融合。自然语言是一个包括词法、词性、句法、语义的体系，也是不断演进的动态体系。代表AIGC最新进展的是由OpenAI公司开发的ChatGPT。它完成了机器学习算法发展中，自然语言处理领域的历史性跨越，即通过大规模预训练模型，形成人工智能技术理解自然语言和文本生成能力，能完成脚本编写、文案撰写、翻译等任务。

这是人类文明史上翻天覆地的革命，开启了任何阶层、任何职业都可以以任何自然语言和人工智能交流，并且生产出从美术作品到学术论文的多样化内容产品。在这样的过程中，AIGC“异化”为一种理解、超越和生成各种自然语言文本的超级“系统”。

第三，AIGC的绝对优势是其逻辑能力。是否存在可以逐渐发展的逻辑推理能力是人工智能与生俱来的挑战。AIGC之所以迅速发展，是因为AIGC基于代码、云计算、技术操控数据、模式识别，以及通过机器对文本内容进行描述、分辨、分类和解释，实现了基于语言模型提示学习的推理，甚至是知识增强的推理，构建了坚实的“底层逻辑”。不仅如此，AIGC具备基于准确和规模化数据，形成包括学习、抉择、尝试、修正、推理，甚至根据环境反馈调整并修正自己行为的能力；它可以突破线性思维框架并实现非线性推理，也可以通过归纳、演绎、分析，实现对复杂逻辑关系的描述。可以毫不夸张地说，AIGC已经并继续改变着21世纪逻辑学的面貌。

第四，AIGC实现了机器学习的集大成。21世纪的机器学习演化到了深度学习（deep learning）阶段。深度学习可以更有效地利用数据特征，形成深度学习算法，解决更为复杂的场景挑战。2014 年生成对抗网络（generative adversarial network, GAN）的出现，加速了深度学习在AIGC领域的应用。AIGC实现了机器学习的集大成（见下图）：

图0-2 机器学习常用算法
资料来源：程序员zhenguo（2023），“梳理机器学习常用算法（含深度学习）”

第五，AIGC开创了“模型”主导内容生成的时代。人类将跑步进入传统人类内容创作和人工智能内容生成并行的时代，进而进入后者逐渐走向主导位置的时代。这意味着传统人类内容创作互动模式转换为AIGC模型互动模式。2022年是重要的历史拐点（见下图）：

图0-3 人类生成内容向AIGC转换趋势
资料来源：作者绘制

在自然语言处理（natural language processing, NLP）系统中，“Transformer”是一种融入注意力机制和神经网络模型领域的主流模型和关键技术。Transformer具有将所处理的任何文字和句子 “向量”或者“矢量”化，最大限度反映精准意义的能力。

总之，没有Transformer，就没有NLP的突破；没有大模型化的AIGC，ChatGPT升级就没有可能。多种重要高效Transformer的集合（见下图）：

图0-4 多种重要高效Transformer的集合模型
资料来源：Tay et al (2022), “Efficient Transformers: A Survey”, doi: 10.48550/arXiv.2009.06732

第六，AIGC开放性创造力的重要来源是扩散模型。扩散（diffusion）模型的概念最早在2015年的论文《利用非均衡热力学的深度非监督学习》（Deep Unsupervised Learning Using Nonequilibrium Thermodynamics）中被提出。【1】2020年，论文《去噪扩散概率模型》（Denoising Diffusion Probabilistic Models）中提出DDPM模型用于图像生成。【2】从技术的角度来看，扩散模型是一个潜在变量（latent variable）模型，通过马尔可夫链（Markov chain）映射到潜在空间。

【注：马尔可夫链的命名来自俄国数学家安德雷·马尔可夫（Andrey Andreyevich Markov，1856—1922），定义为概率论和数理统计中具有马尔可夫性质，且存在于离散的指数集和状态空间内的随机过程。马尔可夫链可能具有不可约性、常返性、周期性和遍历性。】

一般来说，AIGC因为吸纳和依赖扩散模型，而拥有开放性创造力。

2021年8月，斯坦福大学联合众多学者撰写论文将将基于 Transformer架构的等模型称为“基础模型”（foundation model），在翻译时也常译作大模型。Transformer推动了AI整个范式的转变（见下图）：

图0-5 基础模型“Transformer”
资料来源：Bommasani et al (2022), “On the Opportunities and Risks of Foundation Models”, doi: 10.48550/arXiv.2108.07258

第七， AIGC的进化是参数以几何级数扩展为基础。AIGC的训练过程，就是调整变量和优化参数的过程。所以，参数的规模是重要前提。ChatGPT聊天机器人的问世，标志着AIGC形成以Transformer为架构的大型语言模型（large language mode，LLM）机器学习系统，通过自主地从数据中学习，在对大量的文本数据集进行训练后，可以输出复杂的、类人的的作品。

AIGC形成的学习能力决定于参数的规模。GPT-2大约有15亿个参数，而GPT-3最大的模型有1750亿个参数，上升了两个数量级。而且，它不仅参数规模更大，训练所需的数据也更多。根据媒体报道但还未被证实的消息，GPT-4 的参数可能将达到100万亿规模（见下图）：

图0-6 GPT-4的参数规模
资料来源：Mohd Saqib (2022), “The Future of AI: GPT-3 vs GPT-4: A Comparative Analysis”, https://becominghuman.ai/the-future-of-ai-gpt-3-vs-gpt-4-a-comparative-analysis-5ac525cb7ae1

根据学界经验，深度神经网络的学习能力和模型的参数规模呈正相关。人类的大脑皮层有 140多亿个神经细胞，每个神经细胞又有3万多个突触。所以，大脑皮层的突触总数超过100万亿个。所谓的神经细胞就是通过这些突触相互建立联系。假设GPT-4实现100万亿参数规模，堪比人的大脑，意味着它达到与人类大脑神经触点规模的同等水平。

第八，AIGC的算力需求呈现显著增长。数据、算法、算力是人工智能的稳定三要素。根据OpenAI分析，自2012年以来，6年间AI算力需求增长约30万倍（见下图）：

图0-7 从AlexNet到AlphaGo Zero：30万倍的运算量增长
资料来源：OpenAI (2018),“AI and Compute”, https://openai.com/blog/ai-and-compute/

在可以预见的未来，在摩尔定律（Moore’s law）以走向失效的情况下，AI模型所需算力被预测每100天翻一倍，也就是“5年后AI所需算力超100万倍”。【3】造成这样需求的根本原因是AI的算力不再是传统算力，而是“智能算力”，是以多维度的“向量”集合作为算力基本单位的。

第九，AIGC和硬技术相辅相成。从广义上讲，AIGC的硬技术是AI芯片，而且是经过特殊设计和定制的AI芯片。AI芯片需要实现CPU、GPU、FPGA和DSP共存。随着AIGC的发展，使得计算技术的发展不再仅仅依靠通用芯片在制程工艺上的创新，而是结合多种创新方式，形成智能计算和计算智能技术。例如，根据应用需求重新审视芯片、硬件和软件的协同创新，即思考和探索新的计算架构，满足日益巨大、复杂、多元的各种计算场景。期间，量子计算会得到突破性发展。

第十，AIGC将为区块链、NFT、Web3.0和元宇宙带来深层改变。AIGC不可枯竭的创造资源和能力，将从根本上改变目前的NFT概念生态。Web3.0结合区块链、智能合约、加密货币等技术，实现去中心化理念，而AIGC是满足这个目标的最佳工具和模式。

没有悬念，在Web3.0环境下，AIGC内容将出现指数级增长。元宇宙的本质是社会系统、信息系统、物理环境形态通过数字所构成了一个动态耦合的大系统，需要大量的数字内容来支撑，人工设计和开发根本无法满足需求，而AIGC可以最终完善元宇宙生态的底层基础设施。

随着AIGC技术的逐渐成熟，传统人类形态不可能进入元宇宙这样的虚拟世界。未来的元宇宙主体将是虚拟人，即经过AIGC技术，特别融合ChatGPT技术，以代码形式呈现的模型化的虚拟人。

简言之，区块链、NFT、Web3.0，将赋予AIGC进化的契机。AIGC的进化，将加速广义数字孪生形态与物理形态的平行世界形成。

第十一，AIGC催生出全新产业体系和商业化特征。AIGC利用人工智能学习各类数据自动生成内容，不仅能帮助提高内容生成的效率，还能提高内容的多样性。文字生成、图片绘制、视频剪辑、游戏内容生成皆可由AI替代，并正在加速实现，使得AIGC进而渗透和改造传统产业结构。“在产业生态方面，AIGC领域正在加速形成三层产业生态并持续创新发展，正走向模型即服务（MaaS）的未来”（见下图）：

图0-8 AIGC产业结构
资料来源：腾讯《AIGC发展趋势报告》，2023年1月31日发布

伴随AIGC生成算法的优化与改进，AIGC对于普通人来说也不再是一门遥不可及的尖端技术。AIGC在文字、图像、音频、游戏和代码生成中商业模型渐显。2B（to B的简称）将是AIGC的主要商业模式，因为它有助于B端提高效率和降低成本，以填补数字鸿沟。

但可以预见，由于AIGC“原住民”的成长，2C（to C的简称）的商业模式将接踵而来。根据有关机构预测，2030年的AIGC市场规模将超过万亿人民币，其产业规模规模生态（见下图）：

图0-9 AIGC产业规模生态分布
资料来源：陈李，张良卫（2023），“ChatGPT：又一个“人形机器人”，东吴证券https://www.nxny.com/report/view_5185573.html

现在，AIGC，特别是在语言模型领域的全方位竞争已经开始。所以，发生了微软对OpenAI的大规模投资，因为有这样一种说法：“微软下个十年的想象力，藏在ChatGPT里。”近日，谷歌表宣布推出基于“对话应用语言模型”（LaMDA）的Bard，实现其搜索引擎将包括人工智能驱动功能。

ChatGPT刺激谷歌开始“创新者困境”突围。未来很可能出现Bard和ChatGPT的对决或共存，也就是LaMDA和GPT-3.5的对决和共存，构成AIGC竞争和自然垄断的新生态。

在这样的新兴产业构造和商业模式下，就业市场将会发生根本性改变：其一，专业职场重组，相当多的职业可能衰落和消亡；其二，原本支持IT和AI产业的码农队伍面临严重萎缩，因为AIGC极大刺激全球外包模式并取代码农。

第十二，AIGC的法律影响和监管。虽然AIGC这样的新技术提供了很多希望，但是将给法律、社会和监管带来挑战。在中国，继2022年1月国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》后，2022年11月，国家互联网信息办公室再次会同工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》。该规定的第五章第二十三条，对“深度合成技术”内涵做了规定：“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。”但可以预见，因为AIGC的技术日趋复杂和高速发展，国家很难避免监管缺乏专业性和滞后性。

第十三，AIGC正在引领人类加速逼近“科技奇点”。现在，人工智能已经接管世界；世界正在经历一波人工智能驱动的全球思想、文化、经济、社会和政治的转型浪潮。AIGC呈现指数级的发展增速，开始重塑各个行业乃至全球的“数字化转型”。说到底，这就是以AIGC为代表，以ChatGPT为标志的转型。这一切，在2023年会有长足的发展，特别是在资本和财富效益领域。

【注：AI产业在2022年接近3874.5亿美元，预计到2029年将超过13943亿美元，可谓市场机会巨大。2023年，全球企业在人工智能方面的支出将突破5000亿美元。】

如果说，2022年8月的ai绘画作品《太空歌剧院》（Théâtre D’opéra Spatial）推动AIGC进入大众视野，那么，ChatGPT的底层模型GPT-3.5是一个划时代的产物。它与之前常见的语言模型（BERT/ BART/ T5）的区别几乎是导弹与弓箭的区别。

【注：根据韩国IT媒体报道，自2022年11月中旬开始，业界已经传出了GPT-4全面通过了图灵测试的说法。】

如果是这样，不仅意味着GPT-4系统可以改造人类的思想和创作能力，形成人工智能超越专业化族群和大众化趋势，而且意味着这个系统开始具备人类思维能力，并有可能在某些方面和越来越多的方面替代人类。

【注：根据Metaverse Post 消息，ChatGPT通过了美国宾大沃顿商学院MBA的考试。如果消息属实，近乎完成图灵试验。】

特别值得关注的是被称为“人工智能激进变革先锋”的BLOOM（大型开放科学获取多语言模型）的诞生。从2021年3月11日到2022年7月6日，60个国家和250多个机构的1000多名研究人员，在法国巴黎南部的超级计算机上整整训练了117天，创造了BLOOM。这无疑是一场意义深远的历史变革的前奏。

斯坦福大学心理学和计算机科学助理教授丹尼尔·亚明斯（Daniel Yamins）说过：“人工智能网络并没有直接模仿大脑，但最终看起来却像大脑一样，这在某种意义上表明，人工智能和自然之间似乎发生了某种趋同演化。”【4】

2005年，雷·库茨维尔（Raymond Kurzweil，1948—）的巨著《奇点临近：当计算机智能超越人类》（The Singularity is Near: When Humans Transcend Biology）出版。该书通过推算奇异点指数方程，得出了这样一个结论：“在2045年左右，世界会出现一个奇异点。这件事必然是人类在某项重要科技上，突然有了爆炸性的突破，而这项科技将完全颠覆现有的人类社会。它不是像手机这种小的奇异点，而是可以和人类诞生对等的超大奇异点，甚至大到可以改变整个地球所有生命的运作模式。”

现在处于狂飙发展状态的AIGC，一方面已经开始呈指数形式膨胀，另一方面其“溢出效应”正在改变人类本身。在这个过程中，所有原本看来离散和随机的科技创新和科技革命成果，都开始了向AIGC技术的收敛；人工智能正在形成自我发育和完善的内在机制，加速人类社会超越数字化时代，进入智能数字化时代，逼近可能发生在2045年的“科技奇点”。

www.AIGC00.com