数字人

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

数字人(Digital human,Meta human)

目录

什么是数字人

  数字人指存在于非物理世界中,由计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、交互能力等)的综合产物。虚拟数字人可按人格象征和图形维度划分,亦可根据人物图形维度划分。人物形象、语音生成模块、动画生成模块、音视频合成显示模块、交互模块构成虚拟数字人通用系统框架。

  数字人是基于CG(Computer Graphics,计算机图形)技术与人工智能技术打造出的数字化虚拟人物。就交互能力而言,数字人包括交互型与非交互型两类,其中交互型数字人在真人驱动或智能系统驱动下,具备类人动作及感知能力,可实现与真实世界的交互。就应用场景区分,数字人又可被划分为身份型与服务型两类,前者囊括虚拟化身及虚拟IP/偶像,是真实世界人物向虚拟世界“进阶”的产物,“人设”属性较为明显,而后者主要为企业端或个人端用户提供办公、陪伴等拟人化服务,实现部分人力资源的替代。

  1982 年世界第一位虚拟歌姬林明美诞生,虚拟数字人行业经历了萌芽、探索、初级和成长四个阶段。随技术逐年突破,制作过程亦得到有效简化,从最早的手工绘制到现在的 CG、人工智能合成。在虚拟数字人产业链中,基础层提供软硬件的支撑;平台层为制作及开发提供技术;应用层为应用领域提供解决方案,赋能各领域发展。虚拟数字人产业进入门槛高,差异化显著,受众群体不断拓展,因而虚拟数字人价值凸显,应用领域不断拓展。

数字人的研究[1]

  “虚拟数字人”一词最早源于 1989 年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP)。2001年, 国内以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第 174 次学术讨论会提出了“数字化虚拟人体”的概念。

  这些“虚拟数字人”主要是指人体结构的可视化,以三维形式显示人体解剖结构的大小、形状、位置及器官间的相互空间关系,即利用人体信息,实现人体解剖结构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。

  与上述医疗领域的数字化人体不同,本篇中所分析的虚拟数字人(以下简称“数字人”)是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在。虚拟数字人宜具备以下三方面特征:

  一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;

  二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;

  三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。

数字人的发展历程[1]

  20世纪80年代,人们开始尝试将虚拟人物引入到现实世界中,虚拟数字人步入萌芽阶段。该时期虚拟数字人的制作技术以手工绘制为主,应用极为有限。1982年,日本动画《超时空要塞》播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,该专辑成功打入当时日本知名的音乐排行榜 Oricon,林明美也成为了世界上第一位虚拟歌姬。

  1984年,英国人 George Stone 创作出一个名为Max Headroom 的虚拟人物,MAX 拥有人类的样貌和表情动作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数支广告,一度成为英国家喻户晓的虚拟演员。由于技术的限制,其虚拟形象是由真人演员通过特效化妆和手绘实现。

  21世纪初,传统手绘逐渐被 CG、动作捕捉等技术取代,虚拟数字人步入探索阶段。该阶段的虚拟数字人开始达到实用水平,但造价不菲,主要出现在影视娱乐行业,如数字替身、虚拟偶像等。电影制作中的数字替身一般利用动作捕捉技术,真人演员穿着动作捕捉服装,脸上点上表情捕捉点,通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理,经计算机处理后赋予给虚拟角色。

  2001年,《指环王》中的角色咕噜就是由 CG 技术和动作捕捉技术产生,这些技术后续还在《加勒比海盗》、《猩球崛起》等电影制作中使用。2007年,日本制作了第一个被广泛认可的虚拟数字人“初音未来”,初音未来是二次元风格的少女偶像,早期的人物形象 主 要 利 用 CG 技 术合成 , 人物声音采用雅马哈的VOCALOID系列语音合成,呈现形式还相对粗糙。

  近五年,得益于深度学习算法的突破,数字人的制作过程得到有效简化,虚拟数字人开始步入正轨,进入初级阶段。该时期人工智能成为虚拟数字人不可分割的工具,智能驱动的数字人开始崭露头角。

  2018年,新华社搜狗联合发布的“AI合成主播”,可在用户输入新闻文本后,在屏幕展现虚拟数字人形象并进行新闻播报,且唇形动作能与播报声音实时同步。

  2019年,浦发银行百度共同发布的数字员工“小浦”,也是利用自然语言处理语音识别计算机视觉等人工智能技术制作的虚拟数字人,可通过移动设备为用户提供“面对面”的银行业务服务。

  当前,虚拟数字人正朝着智能化、便捷化、精细化、多样化发展,步入成长期。2019年,美国影视特效公司数字王国软件研发部负责人 Doug Roble 在 TED 演讲时展示了自己的虚拟数字人“DigiDoug”,可在照片写实级逼真程度的前提下,进行实时的表情动作捕捉及展现。今年,三星旗下的STAR Labs在CES国际消费电子展上展出了其虚拟数字人项目 NEON,NEON 是一种由人工智能所驱动的虚拟人物,拥有近似真人的形象及逼真的表情动作,具备表达情感和沟通交流的能力。

数字人的运作原理

  虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。

  交互模块为扩展项,根据其有无,可将数字人分为交互型数字人和非交互型数字人。

  首先看一下非交互型数字人:系统依据目标文本生成对应的人物语音及动画,并合成音视频呈现给用户。

  交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。

  智能驱动型数字人:通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,驱动人物模型生成相应的语音与动作来使数字人跟用户互动。

  这种人物模型是预先通过AI技术训练得到,可通过文本驱动生成语音和对应动画,业内将此模型称为TTSA(Text To Speech & Animation)人物模型。

  真人驱动型数字人:真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。

数字人产业图谱[2]

  数字人产业图谱由基础层、平台层及应用层构成。

  1)基础层:基础层为数字人的制作提供必要的基础软硬件支撑,硬件包括芯片、传感器、光学器件及显示设备等,软件包括建模软件及渲染引擎。其中,显示设备是数字世界与真实世界的桥梁,也是数字人在真实世界的呈现载体,既包括电视、手机、投影等2D屏幕,又涵盖裸眼立体VR/AR等3D硬件设备。

  2)平台层:平台层包含建模、动作捕捉及渲染等硬件系统、解决方案平台及AI能力平台三大类,主要为数字人的开发制作提供相应的技术能力。建模系统和动作捕捉系统通过基础层的传感器、光学器件等硬件获取真实世界及人物的数据信息,基于软件算法实现对数字人的建模及动作捕捉,最终经由渲染系统进行数字人云端渲染;解决方案平台主要提供整体的数字人解决方案;AI能力平台基于自身人工智能技术,赋予数字人进行智能感知与交互的能力。

  3)应用层:应用层是数字人与各场景结合形成的行业应用解决方案。在政策与技术双轮驱动下,数字人应用场景持续得到拓展与深化。目前,文娱及服务为数字人应用渗透率较高的两大领域,虚拟偶像、电商主播、数字员工等多元类型数字人在各领域释放其应用价值。

本条目对我有帮助0
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

Tracy.

评论(共0条)

提示:评论内容为网友针对条目"数字人"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

闽公网安备 35020302032707号