人工智能:解决三维显示视频内容匮乏的利器

2019-04-09 10:29
文/赵天奇

无论是少视点三维显示技术需要的内容还是真三维显示设备需要的展示内容,人工智能技术都在提升三维视频内容和音频制作水平、加速内容制作效率方面发挥突出甚至颠覆性的作用。

随着人们对视觉要求的不断提高,三维立体显示作为一种全新模式的视觉革命成为许多人的期待。与传统二维图像视频相比,三维内容增加了更多的视角信息和深度信息,能够给用户带来突出的交互体验和沉浸式的立体感受。

目前,三维显示技术可归为两大类:少视点三维显示和真三维显示。根据不同三维显示设备,可将快速满足其观看、展示等需求的三维显示视频内容也分为两类:2D转3D技术和三维动画制作技术。

少视点三维显示的传统2D转3D内容制作技术主要依靠手工,工序繁琐复杂,无法实现电视剧、综艺、新闻、体育等普通视频内容的实时3D转换。因为内容匮乏,更严重阻碍了3D电视、3D平板等行业发展。而开创性的人工智能2D转3D技术,不仅弥补了传统方式的缺憾,将3D转制效率提升1000余倍,更实现2D内容的实时3D转换。

真三维显示设备的内容制作主要依靠三维动画制作技术。三维动画制作流程包含分镜、建模、动作设计、渲染等众多环节,95%以上的成本在人的肢体和面部动作制作,创作1部12集(每集10分钟左右)的动画作品平均耗时1~2年,困难程度超乎想象。结合人工智能技术,可实现动作的智能生成、智能捕捉、智能修改等,加速三维动画制作效率,甚至有可能实现让人人都能轻松创作三维动画。

基于人工智能的2D视频转3D视频技术

先看少视点三维显示技术,从广义上讲这一类技术可分为3种:图像重建显示、体素显示和视差显示。其中利用视差显示的设备结构简单、可靠性强、成本较低,是目前的研究重点。

市面上销售的3D电视机、3D笔记本电脑、3D平板电脑、3D手机等产品,几乎应用的都是视差制式。

满足这一制式的三维显示设备所需的视频内容主要采用2D转3D方式来制作。另一种3D双目摄像机实拍方式(图1),成本高、周期长、移动不便,而且在拍摄特写、逆光、运动等镜头上也有限制,不为主流采用。

一、应用2D视频转成3D视频技术现状

目前,行业常用的2D转3D技术,需要经过图像分割、灰度绘制、背景补图、渲染合成至少4个步骤:

图像分割通常是用计算机软件联合人工绘制的方式,将画面中的每个物体单独分割开(图2)。分割的精细程度取决于导演或制片方要求的转换质量以及投入的时间和费用。

图像分割示意图

然后依据双眼的不同视角对图像内容进行平移,并给分割出来的每一层依次赋予灰度值,也就是赋予单个部分立体感(图3);

灰度绘制示意图

接着将平移后产生的空白部分补充完整;

背景补图示意图

最后将左右视角图与灰度图进行渲染合成,做出立体画面(图4)。

即便如此,也才仅仅得到一帧图片中一张人物立体图。而1秒钟的视频画面就包含至少24帧(24张图),仅一部90分钟的电影就有多达12.9万帧图像,且每张图里的画面又各不相同。用传统2D转3D方式制作一部90分钟的电影,需要至少100人的团队,连续工作3个月才能完成。

由此将传统2D视频转换成3D视频的技术存在的问题总结如下:

a、制作流程复杂、人力消耗多、制作周期长;

b、因不同影视片段分配给不同人员制作,导致整部影片立体效果不统一,画面易抖动;

c、由于人的生理局限,某些暗黑影视画面肉眼无法分辨,导致漏绘,该帧立体效果不明显;

二、人工智能2D转3D技术

在2016年,人工智能技术走进大众视野。谷歌人工智能程序AlphaGo以4比1的战绩,打败人类围棋世界冠军李世石,轰动世界。短短几年,人工智能技术已飞速融入社会生活的各个领域。

人工智能2D转3D技术是人工智能在影视制作领域里的一项颠覆性创新,主要基于深度神经网络。它继承了浅层神经网络对于单个神经元的仿生,同时又增加了神经网络的层数。把特征提取的工作交给神经网络来做,输入层可以是最原始的数据,不需要人工预先处理,而隐藏层可以实现对原始数据进行特征提取,最后在输出层实现效果。

人工智能2D转3D技术基于的类人认知3D转制系统(如图5所示),包含像人一样的多级、时空融合、对抗认知的自适应深度神经网络。

图1 类人认知3D转制系统示意图

多级认知技术使人工智能系统通过学习人类绘制流程,逐步完成绘制工作,并保证立体效果精美细致;时空融合技术可以保持视频内容的时间域和空间域立体绘制的一致性,使连续画面立体效果更稳定;对抗认知技术使人工智能系统可以自动审核立体绘制效果,并对错误效果自动重新绘制,全面提升审查修改效率(图6)。

类人认知3D转制系统对抗判别环节

从实现效果看,人工智能系统将3D转制效率提升1000余倍。使用传统转3D技术,需要100人团队,花费大约3个月才能完成的工作,在人工智能转3D技术下,仅需要1个人,花费1周时间即可完成(图7)。

效率提升,可快速完成大量3D内容制作

除了1000余倍的高效率,人工智能转3D技术还具有精确、稳定、全能的优势。

精确:通过精选数据集和优化算法,人工智能2D转3D技术能自动将画面里的每一个物体、元素都精确分割、绘制,最大限度还原画面的真实立体感;稳定:由系统统一、高效完成制作,确保连续画面不会因不同人制作而出现抖动问题。全能:无论是都市剧里的现代街道,还是古装剧里的飞檐塔楼;无论是足球比赛,还是动物世界……都能使用该系统完成3D转制工作。

目前,人工智能2D转3D技术还能实现实时3D转换,能将普通电视频道实时转换成3D频道(图8),将普通网页实时转换成3D网页(图9),甚至可以让个人用户自定义上传照片,实时生成3D。

3D实时转换示意图

3D网页示意图

人工智能2D转3D技术已经应用到制作少视点三维显示设备所需的视频内容。不过,从视频画质来看,现阶段仅处于院线级中等水平。若要进一步提升画质,还需要做到以下两点:

a、 继续加强算法对影视画面中的人物、道具、动物,乃至发丝、枝杈等边缘分割,进一步提升物体边缘精细度、稳定度,使立体效果无限接近人眼看到的真实世界;

b、 训练人工智能算法对艺术夸张度的理解与把握,如实际制作中导演常常要求的某个节点将某个场景中的某物体做出飞到观众眼前的出屏效果,让人工智能更懂艺术。

人工智能3D动画制作技术

真三维立体显示技术能够展示全面的信息,超多的角度和深度。满足真三维立体显示的视频内容制作方式有两种:

一种是采用实拍的方式。这种方式需要用超大规模的相机组成阵列(图10),在不同位置同时拍摄,以重建三维模型或捕捉肢体动作等,成本非常昂贵。并且,这种方式只能完成部分特殊的中近景和特写场景拍摄,对于常见的大部分场景制作,则无法实现。

多视点三维重建

另一种方式是用计算机制作三维动画(CG)。它可以实现全面的信息,超多的角度和深度,而且创作自由度高,不失为现阶段为真三维显示提供三维视频内容的最好的方式,但目前的三维动画技术也存在动作制作周期长、动捕不稳定等待解决的问题。

一、三维动画制作的现状

现实生活中,大量应用三维动画技术制作的影视大片,如《变形金刚》、《钢铁侠》、《疯狂动物城》、《大圣归来》等都带给我们巨大的影响力和震撼力。

三维动画制作有两个关键部分,一是角色装配,包括角色模型、场景、道具等的创建;二是角色动作设计(图11),即对每个角色进行绑定,让画面动起来。角色装配与角色动作设计,是影片生动形象的基础。优秀的动画角色应该既有饱满的形象,又有充满感情的动作。

动作设计示意图

由于三维动画中角色模型、场景、道具等一经创建可以多次重复使用,所以在不同场景下角色的动作设计,成为三维动画制作流程中一项耗时、耗力、耗资金的关键环节。

三维动画制作中95%以上的成本在人的肢体和面部动作制作,其每分钟制作成本至少3-5万。创作一部12集(每集10分钟左右)的动画作品平均耗时1-2年,困难程度超乎想象。

用传统手动设置关键帧制作动作的方式,虽简单直观,但为获得更加平滑的动画效果,需要经验丰富的动画师花费较长的时间与精力才能绘制完成。

大量使用动作捕捉技术,是国外目前主要的制作手段,也是未来国内影视制作发展的趋势。通过动作捕捉技术,可以大幅提高制作效率,并可随时捕捉生成所有运动数据,继而形成真实、生动的动作。

动作捕捉从工作原理上可以分为:机械式运动捕捉、声学式运动捕捉、电磁式运动捕捉、光学式运动捕捉及惯性式运动捕捉(表1)。

不同动捕方式优缺点分析
机械式运动捕捉声学式运动捕捉电磁式运动捕捉光学式运动捕捉惯性式运动捕捉
精度高、成本低成本低成本低、标定简单、后期处理速度快给表演者空间大,可捕捉高速运动物体,精度高,可实时成本低,受环境影响最低
不灵活,对表演者限制大精度低、延迟大,要求声源与捕捉器材之间无遮挡无法跟踪高速运动物体,捕捉现场不能出现干扰电磁场的金属物品后期处理工作量大,对环境光要求高,标定复杂精度低

常用动作捕捉方案一般为光学捕捉(图12)和惯性捕捉(图13)。光学捕捉就是我们在影视制作花絮中见的,演员穿上一套带反光球的捕捉服,摄像机追踪衣服上反光球的位置,记录演员的运动数据。惯性捕捉也大同小异,不同的是不需要红外摄像机,而是用衣服上的传感器记录数据。

光学动捕

惯性动捕

但目前,这两种捕捉技术,均存在一些尚待解决的问题:

a、一些复杂动作,动捕演员无法做到;角色身材各异,无法找到完全与之相似的动捕演员;不同的地形等环境,在真实动捕中无法做到完全搭建、模拟;

b、各种动捕设备存在大量的遮挡、抖动等问题,需大量修改;

c、专业级的动捕设备售价达100-300万,甚至更贵,成本高昂;

d、面捕捕捉可捕捉到的表情少,不准确,且成本高,操作非常复杂;

二、基于人工智能的动画制作技术

为了解决这些问题,人工智能动画制作系统通过模仿真实世界物理环境搭建、给定目标任务训练、基于参考的示教训练及实拍级神经网络渲染等方式(图14,图15),创建出角色动作智能生成、智能捕捉、智能修改、智能面捕、智能变声等人工智能化动画制作技术。这将动画制作效率至少提升100倍,并且能够使动画角色更真实、自然,以快速满足真三维显示设备的内容需求。

 

图? 人工智能强化学习示教训练体系

图? 通用积木模块化细粒度语义转化融合体系

例如,制作一个让人物角色走过独木桥的场景。用传统关键帧动画制作,需要先作出角色在桥上移动过程中的几个关键动作,包括重心、脚步位移、手部动作以及表情等,非常难于把握和制作。往往需要一个高级动作师花1至2天时间,才能完成。而用普通动作捕捉技术,则需要搭建出一个类似独木桥的环境(图16),让真人实际走一遍,再对生成的数据进行修改。

相反,用人工智能动画制作的方式,则只需在已经设计好的最终将展示在荧屏前的独木桥环境模型中(图17),置入角色,然后用鼠标给角色画定踏上独木桥并走过独木桥的行走路径,短短几分钟便能生成角色沿给定路径过桥的动画,而且,角色动作真实模拟自然人过桥姿态,如人物角色会张开双手保持平衡,小心翼翼。

黄蓝色线条为给定路径

针对普通动作捕捉出现的问题,人工智能技术也能一一进行纠正或完全解决。

右侧为对左侧错误数据的自动修改

普通动捕无法实现一些复杂动作,以及对身材、地形等的完全模拟。在克服这一点上,人工智能采用“智能生成”的方式,即无需真人演员的动作参考,直接用算法驱动虚拟角色,生成理想的动作。

普通摄像头动作捕捉

普通动捕设备存在的遮挡、抖动等问题,会使捕捉完成后生成的动作数据错误、确实等,需要动画师手动进行调整,而用人工智能技术可以做到智能修改,无需人工干预,自动实现模型动作纠正。

普通动捕设备价格高达百万,成本高昂。通过在动捕系统中增加人工智能算法,可以实现用普通摄像头就能达到专业级动捕设备的捕捉水平,用普通摄像头就能捕捉到目标角色每一个细致的关节移动,从而大幅降低成本。

有人工智能技术加持的面捕捕捉技术(图18),使用一个普通摄像头就能完成准确面部捕捉,高度还原演员表情,并且不需要像普通面捕技术一样,每次表演,演员都需要先进行1-2小时甚至更长时间的面部贴点标定,提升制作效率。另外,实现达真人实拍级别的面部捕捉(图19)。在声音转换上,传统动画制作常常启用配音演员进行配音。最有天赋的配音演员也只能实现5种左右的音色变化。人工智能变声技术,则可以让一个人的音色,变成无数人的音色,并且完整还原重音、语气等要素,让一个人就能完成整部剧所有角色的配音工作。

人工智能面捕

 

原视频为真实拍摄素材,生成视频为根据捕捉信息由计算机生成画面

目前,智能捕捉、智能修改、智能生成及智能配音等技术,已与传统动画制作公司及动画产业相关代理商的生成流程配合使用,进行一些题材的动画片试生产。不久的将来,人工智能动画制作技术将可以让人人都能轻松做动画,并能衍生出教学、讲评书、报新闻、讲段子等二次元或真人虚拟偶像产品形态,从类型上全面丰富真三维显示内容。

不过,人工智能动画制作技术并没有达到完美的程度,事实上它还存在一些技术难点:

a、 智能生成语义分类及实现。在三维动画作品中,常见的角色走、跑、跳、下蹲等动作,人工智能技术已能轻易实现,并能将这些动作迁移给不同身材的模型以及不同的地形环境。但在整部作品中,角色动作可能还会涉及拥抱、握手、打斗等,有待使用人工智能技术去进一步丰富动作类型;

b、 在智能动捕及智能面捕方面,还需不断提升肢体动作及面捕表情动作的捕捉精细度及连续动作准确度。

但是,无论是少视点三维显示技术需要的内容还是真三维显示设备需要的展示内容,人工智能技术都在提升内容制作水平、加速内容制作效率方面发挥突出甚至颠覆性作用。

随着三维显示硬件技术的进一步成熟,先进的人工智能三维显示视频内容技术将会推动三维显示产业更为完善地落地大众消费端,完成产业生态闭环构建。


c3dservice@126.com
———————————————————————————————————————————————————————————————————————————————————————————
工作时间:09:00—18:00
联系电话:010-68234468
北京市海淀区复兴路49号