4D扫描!智能绑定!深度解析AI为元宇宙带来了怎样的发展前景?

截止到目前,放眼望去整个互联网,“元宇宙”竟成了当下最大的“爆点”。

那么元宇宙到底是什么呢?为什么各种资本家争个“头破血流”也要进入元宇宙的世界里分一杯羹?
Facebook的扎克伯格最近可谓是非常高调地宣布改名为Meta。“Meta”的意思就是“元”,像Facebook这种社交公司,巴不得元宇宙世界越做越大,最后成为最大的受益者。
抛开那种虚假的技术圈词汇,简单来说“元宇宙“只是一个代号,这是个虚拟的世界,但这个世界里的人是能够社交并且跟普通人没有什么区别甚至还能“德智体美劳”全面发展,最关键的是这个虚拟世界也时时刻刻的在影响我们的生活。
那么既然聊到这儿,就不可避免想到另一个问题,“数字人”是什么?是虚拟偶像吗?还是像“初音未来”一样的存在?这时候我脑海里就会想到最近正处于“风口”的人物——数字人龚俊,如果你经常在网上冲浪,那么对他一定不会陌生,近日数字人龚俊更是以Ai探索官的身份成功入驻百度APP语音搜索功能。
就像我们开头所提到的,元宇宙影响现实生活,那么数字人同样为人们建起了很好的沟通渠道,随着人们的互动化的需求愈演愈烈,娱乐信息、视频信息、图片信息,甚至是商业信息都吸引了大批量的用户,那么这时,数字人就可以一站式为所有用户获取想要得到的信息,互联网+数字人,融入生活,就可以带来前所未有的体验。
举个最简单的例子,比如我们现在大众所熟知的互联网百度,你打开百度APP并且点击页面底栏的话筒图标,点击右上角的“设置”按钮,在“语音设置”界面中选择“龚俊数字人”,之后用户进行语音搜索时,即可与龚俊数字人进行面对面的实时对话,用AI的方式开启更好的生活。
所有信息都可以通过数字人进行储存和传输,用户的综合化需求能够得到合理的激发,所以“数字人”目前是未来互联网行业发展的一个重要角色。

百度力争首位、打造服务型数字人

那么在数字人争相“破壳而出”的今天,不少数字人为积累粉丝群体从而产生更多的商业价值,只能从营销开始做起。但数字人龚俊在正式推出之后却成为国内首个明星超写实数字人,这或许就是最区别于大众数字人最直白的方式。
谈到龚俊本身,自带话题热度,生产运营成本也可以相对减少,养成阶段可以基本省略,在微博有一千九百多万的粉丝群体,自带丰富的商业价值,IP价值只增不减,基本已形成稳定的IP生态圈,只需在不同领域进行延伸。再加上这次与百度的深度合作更是直接推动了国内关于Ai技术的更新与发展。
AI发展至今,产业生态布局越来越重要。在这样的行业前景下,更是需要企业大头来带动整个技术的上升,从积累技术、资源、商业等一系列都成为生态构建不可或缺的一部分,掌握AI先进技术的企业肯定除了自身以外,对整个国内大环境技术领域也是一个重大提速,从而具有更广阔的前景。
除此之外,百度APP正在开拓用户规模,推进整个生态向服务化、人格化升级。所以此次全力打造的AI龚俊也是首个端内互动的数字人,是一种人机交互的升级。与以往的娱乐性质数字人不同,AI龚俊致力于打造出社交共建生态的元宇宙,成为生活的智能伙伴,聚焦生活等实用性问题,可以有效提升解决问题的效率,产出专业知识内容,提供更好的温情陪伴服务,成为具有关怀感和真实感的AI服务助手。

其实,数字人早已不是“陌生”的词汇,数字人的IP产业也是持续未来乐观的态度,在这个“众口难调”的时代,只有AI技术的创新和发展才能落实到具体的行业上升,毕竟AI技术是当今时代最前沿的技术核心。

数字人龚俊背后的AI技术

一直在说AI,那龚俊这个角色到底哪些方面用到了AI呢?幕后又经历哪些制作过程呢?下面为大家逐一解说下。

4D扫描

这个我之前在很多文章里提到过,原来我们说的是在一个充满相机的空间中动态实时扫描人物的各种动作过程,就是3D扫描加时间轴以多少fps速度扫描,每帧都是一个3D模型。但这里百度的技术过程是收集大量高精度训练数据,让机器学习进行人像驱动绑定和反复迭代调优,让数字人表情更写实,身体动作更加自然,还可根据相机的距离进行自动优化调节。

值得一提的是关于数字人龚俊的眼部是一个非常大的亮点,经过了许多次的打磨和微调,让眼球和眼睑的过渡更为平滑,形成一个极具真实的状态。

像这种采用了4D扫描技术捕捉真人说话及日常表情面部细微变化,使得数字人的表情神态更加本真,肢体动作流畅自如,就可以更完美的做到对龚俊真人的超写实还原。

自然语言语音识别

数字人龚俊从最开始理解人说的话,在跟人交互过程中有语音识别,语音转文字的ASR(语音识别)技术,它可以把用户的语音转化成近乎完成正确的文字信息,基于这个语音输入、自然语言理解和处理相关的单元进行语义的理解。
说到这里我们不得不说下百度的Plato系统,一个开放的对话模型。用户跟他进行对话,几乎识别不出对方是机器人还是真人。这是百度于去年10月公布的基于飞桨开源深度学习平台开发的通用领域对话生成预训练模型PLATO。
PLATO是业界首个基于隐空间(Latent Space)的端到端的预训练对话生成模型。据悉,其模型是利用隐向量来表示对话的潜在方向,从而达到对话内容丰富度和流畅度的显著提升。针对具体的对话任务,基于PLATO可以用少量数据训练得到非常流畅的对话系统。

表情可变口型合成算法

录制某个人一个小时的说话数据,这就形成了一连串由3D模型构成的序列。那AI充当什么角色呢?AI这时候通过这扫描的3D序列,开始学习面部每个部分的微妙变化,比如口轮匝肌,咬肌等等肌肉的运动,这里面最重要的是口型的变化,因为说话时不同的发音,口型呈现千变万化的运动,那么百度这个AI可以理解扫描模型上每个点的变化和口型的关系,然后直接生成影视级别的绑定。

AI优化面部数据

面部也做了不同的表情管理。之前我们很多文章介绍了面部捕捉的软件和技术,比如Faceware,还有苹果手机的AR面补等等,但他们的捕捉在很多时候存在偏差,什么偏差呢?就是当A用户驱动模型时候,微笑,悲伤等表情质量就很好,可是当B用户驱动同一个模型时候,可能微笑动画就变的不精准了,这样的话就需要后期手动修整。

百度的方法是在前期训练演员时就存储各种表情,作为数据让AI进行学习还原出来,然后用AI得到的结果去和即将输出的面部数值融合后进行优化,这样可以保证不同的人驱动同一3D模型的时候可以达到几乎一样的高质量的面部动画效果。
个性化定制
另一方面,语音库的定制,用人工智能去学习龚俊的说话方式和风格,甚至是唱歌的语调,然后就可以用AI生成龚俊唱歌和语音播报。百度智能云数字人技术支持文本、语音等多种驱动方式,多国语言唤醒。
文本驱动支持中英文输入,可插入表情、动作等,文本可转合语音驱动,语音驱动支持真人和合成声音输入,汉语、英语、德语、俄语等多语种均可,除此之外,数字人还支持普通RGB摄像头面部驱动、深度摄像头面部采集驱动共四种驱动方式。

针对百度所擅长的技术而言,从语音识别到自然语言的处理,包括自然语言背后的对话引擎这些东西都是比较复杂又庞大的AI技术。

此次的数字人制作也是用大量算法实现了高精写实,是一个完美的优化过程,对表演者可以进行快速优化,这个过程对于“元宇宙”这个概念来讲,百度已经建造了一个属于自己独有的平台,目的是能够实现数字人的快速复制,如果最终能够快速的生成一个高清数字人并达到最佳状态,那么对于体验这个虚拟世界的代入感、沉浸感就会更好。

百度带动科技、Ai成为灵魂

通过此次数字人龚俊背后技术的了解,更加直观的感受到了百度对AI技术层面的攻破。
人类的科技进步水平不可能是稳定不变,它会一直加速增长。就像Ai在近几年始终是科技圈最看重的问题,那么结合我国目前同样想要快速发展的动画制作行业,Ai就像是“一副有趣的灵魂”,脱离了灵魂,那么动画或许只是好看的“皮囊”。那么Ai到底能为CG带来什么?最直观的可能就是“效率问题”。谈到现在的CG制作,其中很多流程都会耗费很多的人工成本和时间,比如K动画,绑定,渲染等等,其中的反复迭代时间更是惊人,但如果有效的引入AI技术,就可以大大提高制作效率,比如基于AI的降噪,至少在保证同作品效果的前提下,能节省更多的成本和时间。
其实从我们上面解析龚俊背后的AI技术,就不难看出AI在制作数字人,写实数字角色上的巨大优势,要是普通流程制作这样的角色,从模型雕刻,到绑定、动画和渲染,没有个两月三月是实现不了的,但AI介入就大大缩短了制作周期。据了解,龚俊这个角色从扫描车到横店扫描演员,一直到UE4里实时驱动成真假难分的数字人,总共用了2两周的时间,可以说这个速度相当快。更重要的是AI的加入让数字人更加的灵性和真实。
放在未来看,Ai技术的加持对整个CG行业更是带来了无限的可能,未来在CG领域,通过不断的技术积累,很多CG画面或者是中间流程都可以用Ai进行自动生成,这不仅是科技领域,对于整个CG范围内而言都是一个重大的突破和技术行业的全新改革。

逐渐构成百度生态元宇宙

随着数字人的IP价值被不断挖掘,百度此次内容加技术上的输出,也是重新刷新了国民APP的形象,展示了不同以往的多面性,帮助更多的人了解到元宇宙的世界当中,推动数字人领域不断前进,逐渐生成了以百度为中心的百度生态宇宙。
这几年,百度其实一直在推动互联网产品对人文关怀和社会责任的关注。百度APP数字人高度拟人化为用户带来的亲切感、关怀感和沉浸感是无法忽略的。他的商业价值除了明星龚俊本身以外,他所延展出来的产品规划、运作方式可以让数字人得到全面的释放,产品本身就是输出的内容。

总而言之,在互联网发展迅猛的现在,数字人不会再是普通上的视觉与听觉之间的交流,他将会更广泛的在情感、爱好、习惯等方面有更多的互动性。在领军企业的协同下逐步积累、探索涉及到的AI技术与多学科的综合,这些在未来都将成为整个行业数字化水平的重大突破。

现实与元宇宙之间的墙壁终会被打破,科技的力量会像潮水般向我们涌来,未来,数字人会像电影里那样就出现在你我的身边…

CG漫谈

油管上有哪些优秀的Houdini频道?

2021-11-26 0:00:00

CG漫谈知识技术

面部表情写实度堪比照片?可用UE的实时面部绑定技术

2021-11-29 0:00:00

3 条回复 A文章作者 M管理员
<