全球专业中文经管百科,由121,994位网友共同编写而成,共计436,047个条目

數字人

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

數字人(Digital human,Meta human)

目錄

什麼是數字人

  數字人指存在於非物理世界中,由電腦手段創造及使用,並具有多重人類特征(外貌特征、人類表演能力、交互能力等)的綜合產物。虛擬數字人可按人格象徵和圖形維度劃分,亦可根據人物圖形維度劃分。人物形象、語音生成模塊、動畫生成模塊、音視頻合成顯示模塊、交互模塊構成虛擬數字人通用系統框架。

  數字人是基於CG(Computer Graphics,電腦圖形)技術與人工智慧技術打造出的數字化虛擬人物。就交互能力而言,數字人包括交互型與非交互型兩類,其中交互型數字人在真人驅動或智能系統驅動下,具備類人動作及感知能力,可實現與真實世界的交互。就應用場景區分,數字人又可被劃分為身份型與服務型兩類,前者囊括虛擬化身及虛擬IP/偶像,是真實世界人物向虛擬世界“進階”的產物,“人設”屬性較為明顯,而後者主要為企業端或個人端用戶提供辦公、陪伴等擬人化服務,實現部分人力資源的替代。

  1982 年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,製作過程亦得到有效簡化,從最早的手工繪製到現在的 CG、人工智慧合成。在虛擬數字人產業鏈中,基礎層提供軟硬體的支撐;平臺層為製作及開發提供技術;應用層為應用領域提供解決方案,賦能各領域發展。虛擬數字人產業進入門檻高,差異化顯著,受眾群體不斷拓展,因而虛擬數字人價值凸顯,應用領域不斷拓展。

  數字虛擬人是指具有數字化外形的虛擬人物,通常是為特定內容的對話而訓練的人工智慧角色,具有一定的形象能力、感知能力、表達能力和娛樂互動能力。與具備實體的機器人不同虛擬數字人依賴顯示設備存在,並且擁有人的相貌、人的行為以及人的思想。在包括人物形象生成、語音生成、動畫生成、音視頻合成以及交互技術等五大模塊的通用系統框架內,目前虛擬數字人主要分為非交互性虛擬數字人與交互性虛擬數字人,其中交互性虛擬數字人又分為真人驅動型與智能驅動型。

  虛擬數字人極有可能成為用戶與虛擬世界連接交的第一入口,通過與虛擬數字人的交互進行虛擬生產和勞動,最終形成虛擬世界的社會關係和結構。從技術上來看,目前虛擬數字人主要包括真人驅動型和計算驅動型。真人驅動型虛擬數字人是基於IP設計或真人偶像繪製原畫,在進行面部及身體3D建模後,動作捕捉設備或攝像頭將基於真人的動作/表情等驅動虛擬數字人,在靈活度、互動效果方面有顯著優勢。計算驅動型虛擬數字人的語言表達、面部表情、肢体動作等主要是通過深度學習模型進行實時或離線驅動,在染後實現最終效果。

數字人的研究[1]

  “虛擬數字人”一詞最早源於 1989 年美國國立醫學圖書館發起的“可視人計劃”(Visible Human Project, YHP)。2001年, 國內以“中國數字化虛擬人體的科技問題”為主題的香山科學會議第 174 次學術討論會提出了“數字化虛擬人體”的概念。

  這些“虛擬數字人”主要是指人體結構的可視化,以三維形式顯示人體解剖結構的大小、形狀、位置及器官間的相互空間關係,即利用人體信息,實現人體解剖結構的數字化。主要應用於醫療領域的人體解剖教學、臨床診療等。

  與上述醫療領域的數字化人體不同,本篇中所分析的虛擬數字人(以下簡稱“數字人”)是指具有數字化外形的虛擬人物。與具備實體的機器人不同,虛擬數字人依賴顯示設備存在。虛擬數字人宜具備以下三方面特征:

  一是擁有人的外觀,具有特定的相貌、性別和性格等人物特征;

  二是擁有人的行為,具有用語言、面部表情和肢体動作表達的能力;

  三是擁有人的思想,具有識別外界環境、並能與人交流互動的能力。

數字人的發展歷程[1]

  20世紀80年代,人們開始嘗試將虛擬人物引入到現實世界中,虛擬數字人步入萌芽階段。該時期虛擬數字人的製作技術以手工繪製為主,應用極為有限。1982年,日本動畫《超時空要塞》播出後,製作方將女主角林明美包裝成演唱動畫插曲的歌手,並製作了音樂專輯,該專輯成功打入當時日本知名的音樂排行榜 Oricon,林明美也成為了世界上第一位虛擬歌姬。

  1984年,英國人 George Stone 創作出一個名為Max Headroom 的虛擬人物,MAX 擁有人類的樣貌和表情動作,身穿西裝,佩戴墨鏡,曾參演了一部電影,拍攝了數支廣告,一度成為英國家喻戶曉的虛擬演員。由於技術的限制,其虛擬形象是由真人演員通過特效化妝和手繪實現。

  21世紀初,傳統手繪逐漸被 CG、動作捕捉等技術取代,虛擬數字人步入探索階段。該階段的虛擬數字人開始達到實用水平,但造價不菲,主要出現在影視娛樂行業,如數字替身、虛擬偶像等。電影製作中的數字替身一般利用動作捕捉技術,真人演員穿著動作捕捉服裝,臉上點上表情捕捉點,通過攝像機、動作捕捉設備將真人演員的動作、表情採集處理,經電腦處理後賦予給虛擬角色。

  2001年,《指環王》中的角色咕嚕就是由 CG 技術和動作捕捉技術產生,這些技術後續還在《加勒比海盜》、《猩球崛起》等電影製作中使用。2007年,日本製作了第一個被廣泛認可的虛擬數字人“初音未來”,初音未來是二次元風格的少女偶像,早期的人物形象 主 要 利 用 CG 技 術合成 , 人物聲音採用雅馬哈的VOCALOID系列語音合成,呈現形式還相對粗糙。

  近五年,得益於深度學習演算法的突破,數字人的製作過程得到有效簡化,虛擬數字人開始步入正軌,進入初級階段。該時期人工智慧成為虛擬數字人不可分割的工具,智能驅動的數字人開始嶄露頭角。

  2018年,新華社搜狗聯合發佈的“AI合成主播”,可在用戶輸入新聞文本後,在屏幕展現虛擬數字人形象併進行新聞播報,且唇形動作能與播報聲音實時同步。

  2019年,浦發銀行百度共同發佈的數字員工“小浦”,也是利用自然語言處理語音識別電腦視覺等人工智慧技術製作的虛擬數字人,可通過移動設備為用戶提供“面對面”的銀行業務服務。

  當前,虛擬數字人正朝著智能化、便捷化、精細化、多樣化發展,步入成長期。2019年,美國影視特效公司數字王國軟體研發部負責人 Doug Roble 在 TED 演講時展示了自己的虛擬數字人“DigiDoug”,可在照片寫實級逼真程度的前提下,進行實時的表情動作捕捉及展現。今年,三星旗下的STAR Labs在CES國際消費電子展上展出了其虛擬數字人項目 NEON,NEON 是一種由人工智慧所驅動的虛擬人物,擁有近似真人的形象及逼真的表情動作,具備表達情感和溝通交流的能力。

數字人的運作原理

  虛擬數字人系統一般情況下由人物形象、語音生成、動畫生成、音視頻合成顯示、交互等5個模塊構成。

  交互模塊為擴展項,根據其有無,可將數字人分為交互型數字人和非交互型數字人。

  首先看一下非交互型數字人:系統依據目標文本生成對應的人物語音及動畫,併合成音視頻呈現給用戶。

  交互型數字人根據驅動方式的不同可分為智能驅動型和真人驅動型。

  智能驅動型數字人:通過智能系統自動讀取並解析識別外界輸入信息,根據解析結果決策數字人後續的輸出文本,驅動人物模型生成相應的語音與動作來使數字人跟用戶互動。

  這種人物模型是預先通過AI技術訓練得到,可通過文本驅動生成語音和對應動畫,業內將此模型稱為TTSA(Text To Speech & Animation)人物模型。

  真人驅動型數字人:真人根據視頻監控系統傳來的用戶視頻,與用戶實時語音,同時通過動作捕捉採集系統將真人的表情、動作呈現在虛擬數字人形象上,從而與用戶進行交互。

數字人產業圖譜[2]

  數字人產業圖譜由基礎層、平臺層及應用層構成。

  1)基礎層:基礎層為數字人的製作提供必要的基礎軟硬體支撐,硬體包括晶元、感測器、光學器件及顯示設備等,軟體包括建模軟體及渲染引擎。其中,顯示設備是數字世界與真實世界的橋梁,也是數字人在真實世界的呈現載體,既包括電視、手機、投影等2D屏幕,又涵蓋裸眼立體VR/AR等3D硬體設備。

  2)平臺層:平臺層包含建模、動作捕捉及渲染等硬體系統、解決方案平臺及AI能力平臺三大類,主要為數字人的開發製作提供相應的技術能力。建模系統和動作捕捉系統通過基礎層的感測器、光學器件等硬體獲取真實世界及人物的數據信息,基於軟體演算法實現對數字人的建模及動作捕捉,最終經由渲染系統進行數字人雲端渲染;解決方案平臺主要提供整體的數字人解決方案;AI能力平臺基於自身人工智慧技術,賦予數字人進行智能感知與交互的能力。

  3)應用層:應用層是數字人與各場景結合形成的行業應用解決方案。在政策與技術雙輪驅動下,數字人應用場景持續得到拓展與深化。目前,文娛及服務為數字人應用滲透率較高的兩大領域,虛擬偶像、電商主播、數字員工等多元類型數字人在各領域釋放其應用價值。

本條目對我有幫助13
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Tracy,陈cc.

評論(共0條)

提示:評論內容為網友針對條目"數字人"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号