本文最后更新于 2024-11-14 10:25

From:有光AI
Date:2024.3.19

同学们好,今天我们来聊一聊数字人


认识数字人

何为数字人

数字人(Digital Human / Meta Human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。

——中国新闻网2022.09

一般来说,我们说的数字人常常指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在,我们所知的很多虚拟人都要通过手机、电脑或者智慧大屏等设备才能显示。

数字人特点

数字人有哪些特点呢?

  1. 高度的人性化表现。可以模拟人类的语言、动作和情感。
  2. 强大的自然语言处理能力。可以识别和理解人类的语言,并给出相应的回复和建议。
  3. 高度的可定制能力和可扩展性。可以根据用户不同的应用场景进行灵活定制,通过添加不同的程序和算法,提高数字人的语音、行为和场景适应能力。
  4. 多样化的应用场景。可应用于教育、医疗、娱乐、办公等领域。

发展历史

数字人的技术发展历史是与计算机科学和人工智能领域的进步紧密相连的。从早期的概念探索到现在高度逼真的虚拟角色,这一领域经过了不断的演变和创新。为了更好地理解这一进程,我们可以根据技术进步和产业应用将其发展历程大概分成三个主要阶段:

  1. 三维建模阶段(1990年代)

    在这个阶段,随着个人电脑和图形处理能力的提升,三维建模技术开始得到广泛应用。早期的数字人是通过复杂的三维建模软件手工创建的,设计师们需要细致地构建角色的外形,包括面部特征、身体结构、服装等。这些模型通常由数千甚至数万个多边形组成,需要高度的技艺和耐心。虽然此时期的角色动作较为简单,但数字人已经可以用于一些初步的电影特效和视频游戏中。

  2. 动作捕捉阶段(2000年代)

    进入新世纪,动作捕捉技术的引入使得数字人的动态表现更加自然和流畅。通过将真人演员的动作转换成数字角色的动作数据,动作捕捉为数字人赋予了生命力。这一技术不仅提高了动画的真实性,还大大加快了制作流程。在这一阶段,数字人在电影、电视和游戏中的应用变得更加广泛,观众开始能够看到更为复杂和细腻的人物表情及肢体语言。

  3. 深度学习阶段(2010年代至今)

    随着机器学习和深度学习技术的突破性进展,数字人技术进入了一个全新的时代。利用海量的数据进行训练,深度学习算法能够自动生成或改善数字人的外观和动作,使其越来越接近真实人类的表现。此外,自然语言处理技术的发展也让数字人具备了一定的交互能力,能够响应语音指令并做出相应的对话。现在的数字人不仅可以模仿人类的外形和行为,还能够在虚拟现实、增强现实和各类智能应用程序中扮演关键角色。

总的来说,数字人技术的发展是一个不断融合新科技、不断推陈出新的过程。它与前沿科技的发展紧密相连。从静态的三维模型到能够进行复杂交互的虚拟人物,数字人正逐步拓展其在娱乐、教育、服务和其他多个行业的应用前景。

放眼未来,人工智能大模型的逐渐成熟,将会给数字人注入新的活力,令其达到新高度。

数字人与元宇宙

虚拟数字人是元宇宙的主体,核心是人工智能。

——清华大学 沈阳教授

小伙伴们应该知道,前几年“元宇宙”的概念非常火,Facebook 还将其公司名字改成了“Meta”,直接 all in 元宇宙。但是元宇宙不温不火的,当时大家畅想的很多场景也迟迟没有实现,“元宇宙”这个词甚至被很多人看成了虚无缥缈、割韭菜的代名词。

但我认为,元宇宙的实现需要大量且优质的数字资产,其中虚拟数字人是主体,而能够支撑实现这一切的,是人工智能。随着大模型的进一步发展,我们有理由相信,元宇宙的时代也在路上了。

技术原理

相关学科

数字人技术是一个比较宽泛的概念,其涉及到很多细分技术领域,如计算机图形学技术、计算机视觉技术、语音合成和自然语言处理、虚拟现实和增强现实、深度学习神经网络等。

  1. 计算机图形学。计算机图形学技术是数字人的基础,其目的是通过算法模拟真实世界中的物体、场景等。其中最重要的技术是计算机三维建模技术,通过建模可以对数字人物的外貌进行详细的刻画,包括身体特征、面部表情、服装饰品等。

  2. 计算机视觉。计算机视觉技术是实现数字人物逼真表现的关键。该技术可以利用摄像头捕捉真实人物的动作,将其转化为数字人物对应的动作,并对数字人物进行实时渲染,使其动作和外表更加逼真。此外,还可以应用人脸识别、表情识别等技术,进一步提升数字人物的逼真程度。

  3. 语音合成与自然语言处理。自然语言处理(NLP)和语音合成是人工智能领域中的两个重要分支。自然语言处理旨在让计算机理解、生成和处理人类语言,而语音合成则旨在将文本转换为人类可以理解的语音。这两个领域的发展对于创造更自然的人机交互和人工智能技术的应用具有重要意义。

  1. 虚拟现实与增强现实。虚拟现实(Virtual Reality, VR)技术是一种通过计算机技术和传感器设备,构建出一种逼真的虚拟环境,使用户可以进行身临其境的体验。增强现实(Augmented Reality, AR)技术则是一种将虚拟信息与现实世界相结合,实现真实世界和虚拟世界的融合。虚拟现实和增强现实技术的本质区别在于,虚拟现实是将用户带到虚拟世界中,而增强现实是将虚拟世界带到用户所在的现实世界中。

  2. 深度学习神经网络。利用深度学习算法,让计算机学习大量的人类面部数据,包括面部结构、纹理、表情等,以此来建立一个人类面部的数学模型。神经网络(Neural Network,即 NN)就是深度学习的一种经典算法。它是一种受到生物神经系统启发的计算模型,用于机器学习和人工智能领域。神经网络由多个相互连接的人工神经元(或称为节点)层次化组成,这些神经元之间通过加权连接传递信息。 某种程度上,深度学习又属于机器学习的范畴。机器学习(Machine Learning,简称ML),是一门科学,它让计算机像人类一样学习和行动,并通过以观察和现实世界交互的形式向计算机提供数据和信息,以自主的方式不断改进其学习能力。

数字人生成流程与原理

一般来说,我们可以将数字人的生成分为三个关键点:

  1. 生成数字人形象。也就是基于已有的人物图片或视频,生成非常相似的三维角色资产。这一环节需要对人物的外貌、面部表情等特征进行深入分析和理解,以便能够准确地再现人物的形象。继续拆解,这一步会涉及到很多技术细节。

    1. 数据收集:收集人类面部数据,包括大量的图片、视频等。
    2. 数据处理:利用深度学习算法,对数据进行处理,学习面部结构、纹理、表情等信息,以此来建立人类面部的数学模型。
    3. 三维建模:将数学模型转化为三维人脸模型,添加细节,包括肌肉、皮肤等。
    4. 纹理映射:将原始数据中的纹理映射到三维模型中,以此来添加细节和真实感。
    5. 法线贴图:将三维模型表面的几何信息转化为贴图,以此来使得数字人脸看起来更加真实。
    6. 光照模型:利用光照模型,计算数字人脸表面的光照效果,以此来使得数字人脸看起来更加真实。
    7. 后期处理:对生成的数字人进行后期处理,比如添加背景、调整光照等,以此来使得数字人看起来更加逼真。
  2. TTS(Text To Speech)文字转语音。这项技术可以将文本信息转化为自然流畅的语音输出,使得数字人能够以逼真的声音与用户进行交互。在实现过程中,需要考虑语音的节奏、音调、语速等因素,以确保生成的语音符合自然语言的特点,并且与数字人的形象相匹配。

  3. 图像匹配文字LipSync和语调控制Vits。LipSync技术用于将数字人的嘴型与生成的语音进行同步,使得数字人在说话时口型能够与发音相符合,增强真实感;而Vits技术则用于控制数字人的语调,包括音量、音调和节奏等,以便能够表达出不同的情感和语气。

数字人应用

数字人技术在各行各业已有非常广泛的应用,包括大众消费、游戏、影视特效、虚拟现实、智能客服等领域。我给大家举几个例子:

数字人技术可以被应用于虚拟试衣间、虚拟化妆间等领域,为人们提供更加便利的消费体验。

EA Sports 游戏:EA Sports 公司使用数字人技术来创建逼真的运动员数字形象,如 FIFA 和 Madden NFL 等游戏中的球员形象。

Lil Miquela:Lil Miquela 是一个虚拟数字人物,由美国公司 Brud 创建。她在 Instagram 上有数百万的追随者,她的外貌、性格和生活方式都非常真实,让人们难以分辨她是否是真实存在的人物。

洛杉矶殡仪馆:洛杉矶的一家殡仪馆使用数字人技术创建逼真的亡灵形象,让家属在过世之后可以与他们的亲人进行虚拟交互,以缓解悲伤情绪。

数字人的制作

了解了这么多数字人相关的背景、原理以及应用后,我们来看看目前有哪些方式可以制作数字人,会用到哪些工具。

云端在线工具

  • HeyGen:数字人主播/完美克隆/霉霉说中文
  • D-ID:数字人实时对话/九种中文方言
  • 硅基智能:数字人直播/多形态数字人模型
  • 剪映:国内常用剪辑软件/数字人美颜/智能化剪辑
  • 小冰数字人:数字员工/高品质中文克隆

本地免费部署

  • Sadtalker: OpenAI TTS + SDXL = 一分钟数字人
  • MyHeyGen:音视频翻译/数字人唇形合成全流程

AI换脸

  • Roop&FaceFusion:高清换脸/多人换脸/无需训练
  • DeepFaceLive AI:直播AI换脸/支持模型训练
  • FaceSwapLab:脸部重绘/支持生图/局部重绘

视频翻译/唇形同步/语音克隆

  • Video retalking/wav2lip:数字人唇形同步
  • Rask.AI:一键翻译视频/网传郭德纲说英语
  • Elevenlabs:声音复刻/全网最简单中文语音克隆

实操演示

前面介绍了不少信息,小伙伴们消化一下。接下来跟着我,尝试自己动手生成数字人吧。

案例1 使用 HeyGen 或 D-ID 快速创建一个数字人

上面介绍到了 HeyGen 这款 AI 生成数字人的明星产品,现在我们使用它来创建一个数字人:

哈喽大家好,我是焰,很高兴出现在这里。这是我的一个数字分身,怎么样?是不是还挺自然的。

哈哈收回这句文案,其实并不太自然。但是在一些要求没那么高的场景时,也够用了,大家可以自己多玩玩。实现这个数字人需要怎么操作?现在打开你的电脑,跟着我试试吧。

第一步:浏览器搜索“HeyGen”,或是直接输入网址:heygen.com 进入官网。登陆账号,没有就注册一个。

6fd949d7-aaec-4007-b0bb-8a935b261588

第二步:进入界面后,我们可以看到有一些简单的官方教学和模板,点击左侧面板的“Video Avatar”,可以看到有3种模式的数字人可供我们选择:“Instant Avatar”是上传一段视频,在你所上传视频的基础上实现唇形吻合等;“Photo Avatar”是使图片动起来;“Studio Avatar”更像是创建一个无背景的半身数字人资产,方便编辑。

在这里,我们选择“Photo Avatar”,这是相对简单快速的一种。

902dfa33-db39-4e7a-bfaf-80ddfeda4797

第三步:选择一张比较清楚的面部照片上传,上传好后点击进去,可以对其进行形象命名、语言设置等一些简单的编辑,设置好后点击右上角的“Save as New”保存。

48d202ad-6ced-4133-bc99-b764a9934077

7d2461ce-6b21-4a1a-afb4-388dac175823

第四步:选择该数字人,进入AI Studio编辑界面,接下来就和视频剪辑比较类似了,大家可以自行探索各种功能。这里我们展示一下给数字人配一段中文介绍。

14c030b8-2133-41eb-9e0b-6f61ec70712e

第五步:点击左侧菜单栏的“Script”,将文案输入进去,可以选择不同的声音,点击播放可以预览声音效果。

第六步:按照自己的想法编辑好后,点击右上角的“Submit”提交,等待其渲染。

3bc623c8-cf17-44a2-8e51-cb340d4bc2b8

第七步:渲染好后,能看到我们的数字人成功地开口讲话了,点击右侧的“Download Original Video”,下载视频。

至此,我们就实现了一遍 HeyGen 最基础的工作流。

注意,HeyGen 一般会有免费的使用机会,有时长的限制,如果想体验更多更高级的效果,比如声音克隆,那就要氪金咯。(相当的不便宜)

D-ID 和 HeyGen 的使用是大差不差的,很好上手,大家去多多尝试。同样的,氪金到位,体验拉满。

案例2 使用硅基智能多语种翻译视频

我们国内的硅基智能也能实现数字人相关的一些效果。接下来我们使用硅基智能的“硅语”平台,看看其翻译视频的效果。

直接用我们刚才通过 HeyGen 生成的数字人,翻译成英文介绍并匹配唇形:

如何实现?非常简单,跟着我操作:

第一步:浏览器搜索“硅基智能”,或是直接输入网址:https://www.guiji.ai/ 进入官网。

89d0da00-dfbd-4d44-8566-8610d3992d10

第二步:点击上方“产品”,选择“硅语平台”进入。可以看到其提供了“人物视频+新文案=新视频”、“翻译视频”、“数字人模特+文案=视频”3种功能,往下滑来到翻译视频到多国语言的介绍,点击“免费试用”,登陆或注册账号。

315fbbde-4211-4890-a167-5d5ea6b5f384

第三步:进入界面后,首先得完成实名认证才能使用工具。点击“翻译视频”下方的“立即创作”,上传我们的视频。

29625778-41b5-44ff-81f8-58c3edc307e1

第四步:设置好目标语言后,点击提交,等待生成。

2d6bedad-1470-409c-a817-25094fcbed66

第五步:免费用户需要等待排队生成,一般也不会太久。生成好后,查看效果,下载视频。

0d061c9a-3c2c-4043-9303-5ba90e78a2f7

至此,我们就实现了一遍使用硅基智能进行数字人视频翻译的基本工作流。

案例3 使用 Kreado AI 快速创建一个数字人

Kreado AI 能提供快速创建数字人并使其用多种语言多种音色多种语气念文案的功能。

官网链接:https://www.kreadoai.com/

  • 数字人视频创作:150多种真人数字人物,支持多语言文字转语音合成和口播视频创作
  • 数字人 PPT 口播:上传 PPT,实现数字人口播视频功能
  • 照片数字人口播:该功能可实现让照片里的人物说话
  • AI 文案生成:快速生成多语言广告营销文案
  • AI 文字配音:AI 文字配音,提供140多种语言配音
  • AI 模特:快速生成虚拟数字人模型
  • AI 真人模特:上传真人模特图片,即可得到不同肤色样貌的模特商拍效果图
  • AI 智能抠图:快速去除图片背景,一键在线抠图
  • 形象克隆:提交5分钟录屏,超真实还原真人风采
  • 语音克隆:复刻真人音色、音律,可随意切换语言输出

ad114357-45a6-46b1-a922-f03ca02f79d5

官方教程链接:https://kreadoai.gitbook.io/kreadoai-chinese/kreadoai-shi-pin-jiao-cheng

其优势:集多功能于一体,从0到应用,能提供完整的数字人视频生成服务。提供免费无限次的AI关键词生成文案,更换数字人背景、添加视频、背景音乐等功能。

其劣势:免费版仅可在被提供的人物形象(3个欧美形象)与音色中选择并生成一分钟以内的视频(60积分,导出视频为几秒即消耗几积分)。但定制形象或克隆音色需数千元。

免费版案例分享:

案例4 使用万兴播爆快速创建一个数字人

万兴播爆链接:https://virbo.wondershare.cn/app/

官方教程:https://virbo.wondershare.cn/guide/fast-create-an-ai-avatar-video.html

免费版可选的形象很丰富,包含世界各地、各职业风格的形象。可自选背景与背景音乐,可贴动态小贴纸。免费视频导出额度为2分钟。声音克隆首次免费。后续定值需要付费。免费版有20次AI优化文案次数。可选择各类型数字人视频模版,操作简便易上手。

万兴播爆小案例:


进阶案例

MyHeyGen:本地生成数字人

开源项目 MyHeyGen 是一个完全免费的视频翻译工具,音频翻译,翻译校正,视频唇纹合成全流程解决方案。虽然免费,但是对小白来说上手会有些难度,而且对计算机配置也有一定的要求。推荐感兴趣的小伙伴们赶紧尝试起来!

项目地址:https://github.com/great1001/MyHeyGen?tab=readme-ov-file


总结

今天我们带大家了解了数字人的定义、特点、发展历史、相关技术原理和应用,相信大家已经有了一定的认识。同时也给大家演示了 HeyGen、硅基智能的基本操作,展示了一个本地部署的方案。很多工具都还有很多强大的功能,大家课后一定要多多尝试。

留个小练习吧:

📖课后练习:使用 HeyGen/或 D-ID/或硅基智能制作一个数字人短视频。

📖进阶练习:为自己的电脑部署一个 MyHeyGen 本地数字人方案,并产出一个短视频。

本文系作者 @ admin 原创发布在 文档中心 | AheadAI ,未经许可,禁止转载。