一、发展历程
1、萌芽,但商用变现能力差,成本高昂
1950年,艾伦·图灵(Alan Turing)提出“图灵测试”,以判定机器是否能够模仿人类的思维方式来“生成”内容,继而与人交互;
1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量换成音符,完成了历史上第一支由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》;
1966 年,约瑟夫·魏岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby)共同开发了世界第一款可人机对话的机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组完成交互任务;
80 年代中期,IBM 基于隐形马尔科夫链模型(Hidden Markov Model, HMM)创造了语音控制打字机“坦戈拉(Tangora)”,能够处理约 20000 个单词。
2、从实验性向实用性转变,但算法仍限于瓶颈,无法直接生成内容,应用有限
2007 年,纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1 The Road》,作为世界第一部完全由人工智能创作的小说,其象征意义远大于实际意义,整体可读性不强,拼写错误、辞藻空洞、缺乏逻辑等缺点明显;
2012 年,微软公开展示了一个全自动同声传译系统,基于深层神经网络(Deep Neural Network,DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
3、深度学习算法更新迭代,生成内容百花齐放
2017 年,微软人工智能少女“小冰”推出了世界首部 100%由人工智能创作的诗集《阳光失了玻璃窗》;
2018年,英伟达发布的 StyleGAN 模型可以自动生成图片,目前已升级到第四代模型 StyleGAN-XL,其生成的高分辨率图片人眼难以分辨真假;
2019 年,DeepMind 发布了 DVD-GAN 模型用以生成连续视频,在草地、广场等明确场景下表现突出;
2021 年,OpenAI 推出了 DALL-E并于一年后推出了升级版本 DALL-E-2,主要应用于文本与图像的交互生成内容,用户只需输入简短的描述性文字,DALL-E-2 即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。
二、概念和内涵
1.发展背景层面
AIGC 的兴起源于深度学习技术的快速突破和日益增长的数字内容供给需求。
一方面,技术进步驱动 AIGC 可用性不断增强。在人工智能发展初期,虽然对 AIGC 进行了一些初步尝试,但受限各种因素,相关算法多基于预先定义的规则或者模板,还远远算不上是智能创作内容的程度。近年来,基于深度学习算法的AIGC 技术快速迭代,彻底打破了原先模板化、公式化、小范围的局限,可以快速、灵活地生成不同模态的数据内容。
另一方面,海量需求牵引 AIGC 应用落地。随着数字经济与实体经济融合程度不断加深,以及 meta、微软、字节跳动等平台型巨头的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。数字内容的生产取决于想象能力、制造能力和知识水平;传统内容生产手段受限于人力有限的制造能力,逐渐无法满足消费者对于数字内容的消费需求,供给侧产能瓶颈日益凸显。
2.技术能力层面
智能数字内容孪生,其主要目标是建立现实世界到数字世界的映射,将现实世界中的物理属性(如物体的大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)高效、可感知地进行数字化;
智能数字内容编辑,其主要目的是建立数字世界与现实世界的双向交互。在数字内容孪生的基础上,从现实世界实现对虚拟数字世界中内容的控制和修改,同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力;
智能数字内容创作,其主要目标是让人工智能算法具备内容创作和自我演化的能力,形成的 AIGC 产品具备类似甚至超越人的创作能力。