【打造你的替身】数字人创作分享与解析

本文最后更新于 2024-11-14 10:25

From：有光AI
Date：2024.3.19

同学们好，今天我们来聊一聊数字人。

认识数字人

何为数字人

数字人（Digital Human / Meta Human）是运用数字技术创造出来的、与人类形象接近的数字化人物形象。

——中国新闻网2022.09

一般来说，我们说的数字人常常指具有数字化外形的虚拟人物。与具备实体的机器人不同，虚拟数字人依赖显示设备存在，我们所知的很多虚拟人都要通过手机、电脑或者智慧大屏等设备才能显示。

数字人特点

数字人有哪些特点呢？

高度的人性化表现。可以模拟人类的语言、动作和情感。
强大的自然语言处理能力。可以识别和理解人类的语言，并给出相应的回复和建议。
高度的可定制能力和可扩展性。可以根据用户不同的应用场景进行灵活定制，通过添加不同的程序和算法，提高数字人的语音、行为和场景适应能力。
多样化的应用场景。可应用于教育、医疗、娱乐、办公等领域。

发展历史

数字人的技术发展历史是与计算机科学和人工智能领域的进步紧密相连的。从早期的概念探索到现在高度逼真的虚拟角色，这一领域经过了不断的演变和创新。为了更好地理解这一进程，我们可以根据技术进步和产业应用将其发展历程大概分成三个主要阶段：

三维建模阶段（1990年代）

在这个阶段，随着个人电脑和图形处理能力的提升，三维建模技术开始得到广泛应用。早期的数字人是通过复杂的三维建模软件手工创建的，设计师们需要细致地构建角色的外形，包括面部特征、身体结构、服装等。这些模型通常由数千甚至数万个多边形组成，需要高度的技艺和耐心。虽然此时期的角色动作较为简单，但数字人已经可以用于一些初步的电影特效和视频游戏中。
动作捕捉阶段（2000年代）

进入新世纪，动作捕捉技术的引入使得数字人的动态表现更加自然和流畅。通过将真人演员的动作转换成数字角色的动作数据，动作捕捉为数字人赋予了生命力。这一技术不仅提高了动画的真实性，还大大加快了制作流程。在这一阶段，数字人在电影、电视和游戏中的应用变得更加广泛，观众开始能够看到更为复杂和细腻的人物表情及肢体语言。
深度学习阶段（2010年代至今）

随着机器学习和深度学习技术的突破性进展，数字人技术进入了一个全新的时代。利用海量的数据进行训练，深度学习算法能够自动生成或改善数字人的外观和动作，使其越来越接近真实人类的表现。此外，自然语言处理技术的发展也让数字人具备了一定的交互能力，能够响应语音指令并做出相应的对话。现在的数字人不仅可以模仿人类的外形和行为，还能够在虚拟现实、增强现实和各类智能应用程序中扮演关键角色。

总的来说，数字人技术的发展是一个不断融合新科技、不断推陈出新的过程。它与前沿科技的发展紧密相连。从静态的三维模型到能够进行复杂交互的虚拟人物，数字人正逐步拓展其在娱乐、教育、服务和其他多个行业的应用前景。

放眼未来，人工智能大模型的逐渐成熟，将会给数字人注入新的活力，令其达到新高度。

数字人与元宇宙

虚拟数字人是元宇宙的主体，核心是人工智能。

——清华大学沈阳教授

小伙伴们应该知道，前几年“元宇宙”的概念非常火，Facebook 还将其公司名字改成了“Meta”，直接 all in 元宇宙。但是元宇宙不温不火的，当时大家畅想的很多场景也迟迟没有实现，“元宇宙”这个词甚至被很多人看成了虚无缥缈、割韭菜的代名词。

但我认为，元宇宙的实现需要大量且优质的数字资产，其中虚拟数字人是主体，而能够支撑实现这一切的，是人工智能。随着大模型的进一步发展，我们有理由相信，元宇宙的时代也在路上了。

技术原理

数字人生成流程与原理

一般来说，我们可以将数字人的生成分为三个关键点：

生成数字人形象。也就是基于已有的人物图片或视频，生成非常相似的三维角色资产。这一环节需要对人物的外貌、面部表情等特征进行深入分析和理解，以便能够准确地再现人物的形象。继续拆解，这一步会涉及到很多技术细节。
1. 数据收集：收集人类面部数据，包括大量的图片、视频等。
2. 数据处理：利用深度学习算法，对数据进行处理，学习面部结构、纹理、表情等信息，以此来建立人类面部的数学模型。
3. 三维建模：将数学模型转化为三维人脸模型，添加细节，包括肌肉、皮肤等。
4. 纹理映射：将原始数据中的纹理映射到三维模型中，以此来添加细节和真实感。
5. 法线贴图：将三维模型表面的几何信息转化为贴图，以此来使得数字人脸看起来更加真实。
6. 光照模型：利用光照模型，计算数字人脸表面的光照效果，以此来使得数字人脸看起来更加真实。
7. 后期处理：对生成的数字人进行后期处理，比如添加背景、调整光照等，以此来使得数字人看起来更加逼真。
TTS（Text To Speech）文字转语音。这项技术可以将文本信息转化为自然流畅的语音输出，使得数字人能够以逼真的声音与用户进行交互。在实现过程中，需要考虑语音的节奏、音调、语速等因素，以确保生成的语音符合自然语言的特点，并且与数字人的形象相匹配。
图像匹配文字LipSync和语调控制Vits。LipSync技术用于将数字人的嘴型与生成的语音进行同步，使得数字人在说话时口型能够与发音相符合，增强真实感；而Vits技术则用于控制数字人的语调，包括音量、音调和节奏等，以便能够表达出不同的情感和语气。

数字人应用

数字人技术在各行各业已有非常广泛的应用，包括大众消费、游戏、影视特效、虚拟现实、智能客服等领域。我给大家举几个例子：

数字人技术可以被应用于虚拟试衣间、虚拟化妆间等领域，为人们提供更加便利的消费体验。

EA Sports 游戏：EA Sports 公司使用数字人技术来创建逼真的运动员数字形象，如 FIFA 和 Madden NFL 等游戏中的球员形象。

Lil Miquela：Lil Miquela 是一个虚拟数字人物，由美国公司 Brud 创建。她在 Instagram 上有数百万的追随者，她的外貌、性格和生活方式都非常真实，让人们难以分辨她是否是真实存在的人物。

洛杉矶殡仪馆：洛杉矶的一家殡仪馆使用数字人技术创建逼真的亡灵形象，让家属在过世之后可以与他们的亲人进行虚拟交互，以缓解悲伤情绪。

数字人的制作

了解了这么多数字人相关的背景、原理以及应用后，我们来看看目前有哪些方式可以制作数字人，会用到哪些工具。

云端在线工具

HeyGen：数字人主播/完美克隆/霉霉说中文
D-ID：数字人实时对话/九种中文方言
硅基智能：数字人直播/多形态数字人模型
剪映：国内常用剪辑软件/数字人美颜/智能化剪辑
小冰数字人：数字员工/高品质中文克隆

本地免费部署

Sadtalker: OpenAI TTS + SDXL = 一分钟数字人
MyHeyGen：音视频翻译/数字人唇形合成全流程

AI换脸

Roop&FaceFusion：高清换脸/多人换脸/无需训练
DeepFaceLive AI：直播AI换脸/支持模型训练
FaceSwapLab：脸部重绘/支持生图/局部重绘

视频翻译/唇形同步/语音克隆

Video retalking/wav2lip：数字人唇形同步
Rask.AI：一键翻译视频/网传郭德纲说英语
Elevenlabs：声音复刻/全网最简单中文语音克隆

实操演示

前面介绍了不少信息，小伙伴们消化一下。接下来跟着我，尝试自己动手生成数字人吧。

案例1 使用 HeyGen 或 D-ID 快速创建一个数字人

上面介绍到了 HeyGen 这款 AI 生成数字人的明星产品，现在我们使用它来创建一个数字人：

哈喽大家好，我是焰，很高兴出现在这里。这是我的一个数字分身，怎么样？是不是还挺自然的。

哈哈收回这句文案，其实并不太自然。但是在一些要求没那么高的场景时，也够用了，大家可以自己多玩玩。实现这个数字人需要怎么操作？现在打开你的电脑，跟着我试试吧。

第一步：浏览器搜索“HeyGen”，或是直接输入网址：heygen.com 进入官网。登陆账号，没有就注册一个。

6fd949d7-aaec-4007-b0bb-8a935b261588

第二步：进入界面后，我们可以看到有一些简单的官方教学和模板，点击左侧面板的“Video Avatar”，可以看到有3种模式的数字人可供我们选择：“Instant Avatar”是上传一段视频，在你所上传视频的基础上实现唇形吻合等；“Photo Avatar”是使图片动起来；“Studio Avatar”更像是创建一个无背景的半身数字人资产，方便编辑。

在这里，我们选择“Photo Avatar”，这是相对简单快速的一种。