数字人
出自 MBA智库百科(https://wiki.mbalib.com/)
数字人(Digital human,Meta human)
目录 |
数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。
数字人是基于CG(Computer Graphics,计算机图形)技术与人工智能技术打造出的数字化虚拟人物。就交互能力而言,数字人包括交互型与非交互型两类,其中交互型数字人在真人驱动或智能系统驱动下,具备类人动作及感知能力,可实现与真实世界的交互。就应用场景区分,数字人又可被划分为身份型与服务型两类,前者囊括虚拟化身及虚拟IP/偶像,是真实世界人物向虚拟世界“进阶”的产物,“人设”属性较为明显,而后者主要为企业端或个人端用户提供办公、陪伴等拟人化服务,实现部分人力资源的替代。
1982 年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制作过程亦得到有效简化,从最早的手工绘制到现在的 CG、人工智能合成。在虚拟数字人产业链中,基础层提供软硬件的支撑;平台层为制作及开发提供技术;应用层为应用领域提供解决方案,赋能各领域发展。虚拟数字人产业进入门槛高,差异化显著,受众群体不断拓展,因而虚拟数字人价值凸显,应用领域不断拓展。
数字虚拟人是指具有数字化外形的虚拟人物,通常是为特定内容的对话而训练的人工智能角色,具有一定的形象能力、感知能力、表达能力和娱乐互动能力。与具备实体的机器人不同虚拟数字人依赖显示设备存在,并且拥有人的相貌、人的行为以及人的思想。在包括人物形象生成、语音生成、动画生成、音视频合成以及交互技术等五大模块的通用系统框架内,目前虚拟数字人主要分为非交互性虚拟数字人与交互性虚拟数字人,其中交互性虚拟数字人又分为真人驱动型与智能驱动型。
虚拟数字人极有可能成为用户与虚拟世界连接交的第一入口,通过与虚拟数字人的交互进行虚拟生产和劳动,最终形成虚拟世界的社会关系和结构。从技术上来看,目前虚拟数字人主要包括真人驱动型和计算驱动型。真人驱动型虚拟数字人是基于IP设计或真人偶像绘制原画,在进行面部及身体3D建模后,动作捕捉设备或摄像头将基于真人的动作/表情等驱动虚拟数字人,在灵活度、互动效果方面有显著优势。计算驱动型虚拟数字人的语言表达、面部表情、肢体动作等主要是通过深度学习模型进行实时或离线驱动,在染后实现最终效果。
数字人的研究[1]
“虚拟数字人”一词最早源于 1989 年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP)。2001年, 国内以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第 174 次学术讨论会提出了“数字化虚拟人体”的概念。
这些“虚拟数字人”主要是指人体结构的可视化,以三维形式显示人体解剖结构的大小、形状、位置及器官间的相互空间关系,即利用人体信息,实现人体解剖结构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。
与上述医疗领域的数字化人体不同,本篇中所分析的虚拟数字人(以下简称“数字人”)是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在。虚拟数字人宜具备以下三方面特征:
一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;
二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;
三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
数字人的发展历程[1]
20世纪80年代,人们开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶段。该时期虚拟数字人的制作技术以手工绘制为主,应用极为有限。1982年,日本动画《超时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,该专辑成功打入当时日本知名的音乐排行榜 Oricon,林明美也成为了世界上第一位虚拟歌姬。
1984年,英国人 George Stone 创作出一个名为Max Headroom 的虚拟人物,MAX 拥有人类的样貌和表情动作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数支广告,一度成为英国家喻户晓的虚拟演员。由于技术的限制,其虚拟形象是由真人演员通过特效化妆和手绘实现。
21世纪初,传统手绘逐渐被 CG、动作捕捉等技术取代,虚拟数字人步入探索阶段。该阶段的虚拟数字人开始达到实用水平,但造价不菲,主要出现在影视娱乐行业,如数字替身、虚拟偶像等。电影制作中的数字替身一般利用动作捕捉技术,真人演员穿着动作捕捉服装,脸上点上表情捕捉点,通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理,经计算机处理后赋予给虚拟角色。
2001年,《指环王》中的角色咕噜就是由 CG 技术和动作捕捉技术产生,这些技术后续还在《加勒比海盗》、《猩球崛起》等电影制作中使用。2007年,日本制作了第一个被广泛认可的虚拟数字人“初音未来”,初音未来是二次元风格的少女偶像,早期的人物形象 主 要 利 用 CG 技 术合成 , 人物声音采用雅马哈的VOCALOID系列语音合成,呈现形式还相对粗糙。
近五年,得益于深度学习算法的突破,数字人的制作过程得到有效简化,虚拟数字人开始步入正轨,进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具,智能驱动的数字人开始崭露头角。
2018年,新华社与搜狗联合发布的“AI合成主播”,可在用户输入新闻文本后,在屏幕展现虚拟数字人形象并进行新闻播报,且唇形动作能与播报声音实时同步。
2019年,浦发银行和百度共同发布的数字员工“小浦”,也是利用自然语言处理、语音识别、计算机视觉等人工智能技术制作的虚拟数字人,可通过移动设备为用户提供“面对面”的银行业务服务。
当前,虚拟数字人正朝着智能化、便捷化、精细化、多样化发展,步入成长期。2019年,美国影视特效公司数字王国软件研发部负责人 Doug Roble 在 TED 演讲时展示了自己的虚拟数字人“DigiDoug”,可在照片写实级逼真程度的前提下,进行实时的表情动作捕捉及展现。今年,三星旗下的STAR Labs在CES国际消费电子展上展出了其虚拟数字人项目 NEON,NEON 是一种由人工智能所驱动的虚拟人物,拥有近似真人的形象及逼真的表情动作,具备表达情感和沟通交流的能力。
虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。
交互模块为扩展项,根据其有无,可将数字人分为交互型数字人和非交互型数字人。
首先看一下非交互型数字人:系统依据目标文本生成对应的人物语音及动画,并合成音视频呈现给用户。
交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。
智能驱动型数字人:通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,驱动人物模型生成相应的语音与动作来使数字人跟用户互动。
这种人物模型是预先通过AI技术训练得到,可通过文本驱动生成语音和对应动画,业内将此模型称为TTSA(Text To Speech & Animation)人物模型。
真人驱动型数字人:真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。
数字人产业图谱[2]
数字人产业图谱由基础层、平台层及应用层构成。
1)基础层:基础层为数字人的制作提供必要的基础软硬件支撑,硬件包括芯片、传感器、光学器件及显示设备等,软件包括建模软件及渲染引擎。其中,显示设备是数字世界与真实世界的桥梁,也是数字人在真实世界的呈现载体,既包括电视、手机、投影等2D屏幕,又涵盖裸眼立体VR/AR等3D硬件设备。
2)平台层:平台层包含建模、动作捕捉及渲染等硬件系统、解决方案平台及AI能力平台三大类,主要为数字人的开发制作提供相应的技术能力。建模系统和动作捕捉系统通过基础层的传感器、光学器件等硬件获取真实世界及人物的数据信息,基于软件算法实现对数字人的建模及动作捕捉,最终经由渲染系统进行数字人云端渲染;解决方案平台主要提供整体的数字人解决方案;AI能力平台基于自身人工智能技术,赋予数字人进行智能感知与交互的能力。
3)应用层:应用层是数字人与各场景结合形成的行业应用解决方案。在政策与技术双轮驱动下,数字人应用场景持续得到拓展与深化。目前,文娱及服务为数字人应用渗透率较高的两大领域,虚拟偶像、电商主播、数字员工等多元类型数字人在各领域释放其应用价值。