超写实数字人如何做到越过恐怖谷被投企 - 病毒性心肌炎后遗症

TUhjnbcbe - 2024/8/24 18:16:00

近期，联想创投被投企业「数字栩生」联合创始人CTO翁冬冬接受媒体专访，聊一聊超写实数字人到底是如何生产的，技术难点在哪里，未来会如何改变我们的生活，以及数字人可能面临的法律风险等问题。做数字人很难，尤其是超写实数字人，可是到底难在哪里？「所有和做人相关的行业，一定会遇到恐怖谷理论」，数字栩生联合创始人CTO翁冬冬这么解释道。接下来的难度则是如何让静态数字人像人、如何让动态数字人像人，以及如何让数字人的交互像人。「要想真的像人，应该是主动和人进行互动，元宇宙也好，VR也好，我们想要的是能进行互动的数字人。」对于理想中的数字人，翁冬冬是这么形容的。相比较目前流行的二次元风格的虚拟数字人，超写实数字人落地的领域会有稍微的不同，企业客服、数字演员甚至法律顾问等与人们日常更相关的领域，对于未来的数字人商业前景，翁冬冬很有信心，掌握着用户各种信息的数字伴侣，「可以说是世界上最了解你的人」。未来尚未到来，但我们可以提前做好准备。

points

要点

1.做数字人就像考试，但不同的是考80分不及格，考85分也不及格，考到90分才算及格，不存在中间60-70分的过程。

2.要想让数字人真的像人，应该是主动和人进行互动，元宇宙也好，VR也好，我们想要的是能进行互动的数字人。

.如果数字人没有需求是不会像人的，不会害怕，不会希望保持自尊，做出来的只是机械的反应，不像人就没有办法共情，描绘的很多美好的应用场景也就不存在。

如何制作超写实数字人？

FounderPark：数字栩生的技术解决方案是什么？具体有哪些案例？

翁冬冬：我们主要负责制作超写实的三维实时化的数字人。采用数字孪生的方式，通过把真实的演员进行复刻，采集演员的动态表情，生成完整的数字资产，这些数字资产未来可以用在数字直播、智能员工等领域。

典型的案例是我们和千博信息共同研发了一个数字手语主持人千言，在电视新闻播报的时候，屏幕左侧直接进行手语翻译帮助聋哑人理解新闻内容。通过人工智能和高写实数字人的结合，能够实现文本快速转换成手语动作，只要新闻主持人的稿件成型，我们就可以快速生成动画。

数字手语主持人千言

来源：数字栩生

另外我们还制作了偶像型以及游戏数字人，比较有代表性的是游戏《代号：降临》（现更名为《星球：重启》）里的李星澜，目前她有自己的抖音账户，会定期向外发布相关视频。还有在文化领域的应用，去年我们和中央戏剧学院合作了数字梅兰芳大师的复现项目，这是一个公益项目，我们希望通过数字技术把文化名人进行复现，把优秀文化通过新的技术进行结合和传播。

FounderPark：数字人到底是怎么生成的？有哪些技术解决方案？

翁冬冬：数字人技术领域已经发展了很多年，早年是电影行业对数字演员的需求比较多。传统数字人的构建是通过艺术家进行数字雕刻，把人物的脸型进行数字化建模，再通过骨骼绑定，生成可控制的数据角色。但这种数字人存在一个问题：人类的表情非常细腻，如果想做出动态表情非常逼真的数字人，要在前期做大量的工作，而且需要水平非常高的艺术家。

我们大概在五六年前进入这个领域，团队的技术背景是工科背景，都是工程师。所以想通过技术手段，甚至考虑未来以工厂化的方式来生产数字人。

直观来看，传统方式更像画家在画画，而我们采用的方式是造一台照相机来快速拍照，同样也可以得到漂亮的画面。「照相机」就是我们所使用的数字孪生技术，首先对真实的演员进行采集，下图左侧的球状体以前叫LightBall，我们一般叫大球。这个大球上有非常多可控的led和阵列照相机，可以同时在不同光照的条件下多角度采集用户照片，生成三维的精准脸部测量结果。通过这些测量结果，再结合一系列后续的算法，可以对演员的表情进行准确复刻，同时还可以获得脸部的光学几何特征。通过这种照相方式，可以更高效、低成本地把数字人精准制作出来。

采集流程演示

来源：数字栩生

现在的采集精度基本是毫米级，根据需求能生成的纹理是4k-8k。采集本身是一个完整的流程，非常快。一般采集一个人，把他所有的表情也就是大概五十几个全部采完，甚至包括几套妆容，大概只需三小时。根据后期客户的要求，基本上我们会在一到两个月内完成反复修改，最终实现交付。目前我们会更