注入AI的魂灵后，数字人将成为所有人的门户-正大期货-香港正大国际期货-www.zdup.com.cn

您的位置：主页 > 公告动态 > 正大动态 > 正大动态

注入AI的魂灵后，数字人将成为所有人的门户

2023-07-05 18:19 来源：正大期货官网作者：正大期货点击：次

自古以来，人类就有着对自我印象的追求和巴望。印象是人类的延伸、回忆，也是人类的表达。

曩昔的两百多年里，人类为了留住自我的印象，发明了各种手法和东西。从开端的画像，到后来的摄像机，再到今日的数字人，都是人类为了留住画像，解放人类的躯体，而进行一次次技术革新。

尽管数字人从诞生那天起，就一直在企图仿照和仿制实在的人类，但由于年代的约束，以往的数字人，离人们幻想中那绘声绘色的形象，总是差了点气候，

其在商业上的运用，也总是不免被人视作“鸡肋”。

但是，AI年代的到来，好像为这一从前“聊胜于无”的技术，注入了新的魂灵。凭仗益发传神的形象，数字人开端在更多的场景、职业中进行赋能。

01 “前浪”困难探究

许多人在谈到数字人的曩昔时，往往都会堕入一个误区，以为开端的数字人仅仅是个被炒起来的概念，是个像VR那样，看似潜力无限，实则可有可无的“鸡肋”。

实际上，这样的观点，疏忽了一个重要的实际，那便是：

在数字人诞生的前期，不是人们没有对数字人的需求，而是其时的技术、本钱，底子满意不了这样的需求。

具体来说，前期的数字人，首要存在着本钱昂扬、技术标准不一致、形象难以与真人比美等缺点。

据国内*的数字人企业风平智能介绍，在数字人处于2D卡通年代时，尽管也有部分企业，出于营销时添加别致感的需求，订货了一些数字人，但其间99%的数字人，在订货之后半年就再无人问津。

究其原因，是其时数字人的本钱太高，而运用场景却又太窄了。

试想一下，花费数十万制造出来的卡通数字人，除了在部分需求添加“别致感”的运用场景外，还能用在什么地方呢？

你不能盼望人们在上课、开会或讲座这些严厉的场景里，看着一个卡通形象喋喋不休吧？

后来，尽管跟着技术的前进，数字人的形象开端逐步朝着写实、3D的方向开展，可居高不下的本钱，依然让许多企业望而生畏。

一般来说，数字人的制造首要包含了数据收集、处理和运用等方面，而依据数据处理的杂乱度和功率，以及数据运用的规划和质量的不同，一个3D化的写实数字人，本钱可到达数十万到百万元不等。

这仍是剔除了后期运营本钱的情况下。

以抖音美妆达人“柳夜熙”为例，其制造企业创壹科技CEO梁子康曾对媒体表明，“柳夜熙”仅制造投入就在百万元等级，而*条“柳夜熙”的短视频本钱约几十万元。超写实虚拟人视频每秒的本钱都在万元区间。

由于想要让数字人“动”起来，就需求让AI驱动数字人的语音表达、面部表情、动作生成等等，这都是巨大的投入。

而花费了如此巨大的数字人，最终仍是只能约束在文娱、直播、内容IP等范畴；

这是由于，其时的数字人，交互才干还不行强大和智能，无法了解杂乱语境、也无法处理多轮对话，导致用户的沟通和服务功率很低。

即使有的数字人，能够通过真人的方法驱动，可这类数字人的交互才干，也要受限于真人操作者的水平和风格，这使其很难满意不同用户和场景的多元化需求。

因而，只要在文娱、直播等愈加垂青“门面”和“颜值”的场景中，数字人才干占有一席之地。

但是，一切这一切的约束，都跟着当今AI革新的到来，而被纷繁打破了。

02 本钱暴降、井喷降临

2020年，跟着元世界概念的炽热，商场关于进步数字人出产功率和提高商业化的诉求日益高涨。一起，5G、AI等新技术更新换代，也让数字人得到了勃发重生的时机。

其间几项要害的技术，让数字人极大地提高了与真人的挨近度。

例如，人像驱动引擎，能够通过4D扫描、智能绑定等AI技术，完成数字人的唇形驱动、肢体驱动、表情驱动、手势感知等，一起削减动作捕捉、CG组成的制造流程，大幅下降了本钱。

而智能对话引擎，通过自然语言处理技术，为数字人快速定制对话才干、继续提高对话作用。

这些技术，让数字人在表现力、才智度、交互才干上都得到了大幅提高。

也便是在这一阶段，包含百度、腾讯在内的国内各大企业，开端在数字人范畴八仙过海，各显神通。

例如，百度推出的曦灵数字人渠道，通过自然语言处理、语音辨认、计算机视觉等技术的提高，让数字人在视觉表现力上有了显着提高。

尽管形象依然是3D人物，但从五官细节，神态动作等方面，都显着在朝着更写实的方向进行开展。

曾经需求两三个月时刻做出来的3D数字人，现在能够压缩到小时级。

一起，通过在线语音交互注意力模型，数字人也总算变得“音画同步”了，逐字口型准确率到达了98.5%。

而得益于新一代数字更生动的表现力，曦灵渠道推出的数字人，也从单一的文娱范畴，扩展到了更多元的职业。例如在2B端担任数字理财专员、数字客服、虚拟培训师等人物，或是新闻播报员等。

腾讯在数字人方面，也发布了智能小样本数智人出产渠道。

腾讯方面称，该渠道可完成“自助式”数智人出产制造，只需通过3分钟真人口播视频、100句语音资料的练习，便可在输入音频、文本等多模态数据后，实时建模并生成高清人像，在24小时内制造出与真人近似的“数智人”，其运用本钱也将被降至千元等级。

能够说是BAT三巨头中，最早完成真人级数字人的企业。

小样本“数智人”从直观上感触是2D视频，但背面其实是3D人像技术在支撑。通过3D人脸结构的先验信息引进，使数智人口型、表情更到位，让小样本“数智人”形象完成“皱纹级”复原。

除了百度、腾讯这些大厂外，一些默默耕耘于数字人笔直赛道的企业，也凭仗日益精深的技术，打造出了更传神和生动的数字人。

在数字人范畴研究已久的风平智能，便是一个这样的代表。

其共同的XGen智造体系，和丰厚、可定制的常识库，在低本钱高质量出产数字人的一起，还能使每一个数字人都具有*的“智能大脑”。然后扩展了其多元化的场景运用才干。

一起，通过深度学习技术建模，风平智能的数字人还能支撑129种语种，完成了跨国互动无障碍的沟通。其制造的数字人，已运用在了新东方的讲堂直播中。

在这一阶段，数字人所呈现出的整体趋势，是制造本钱的大幅度下降，以及表现力的日新月异。

而这些技术前进，所带来的直接的结果，便是数字人技术的不断下沉和趋同。

03 当AI的魂灵注入数字人

从概念提出到场景落地，AIGC加持下的数字人，现已从原先几十万、上百万的制造本钱，数个月的制造周期，下降到了现在数千元，十几个小时的制造门槛。

数字人的运用场景，早已从单一的B端逐步向C端分散。而这样的分散，必将会重塑人类信息的输出端口。

纵观数字年代的每一次革新，人类信息的输出端口，一直在不断改变。

在传统的PC年代，这样的端口是屏幕上的一个个网页；

到了移动互联网年代，这样的端口则变成了一个个APP；

自媒体鼓起后，这样的端口又变成了一个个大众号、短视频；

而在AIGC年代，通过AI大模型强化后的数字人，则注定会具有以往各类端口所不具备的常识量和交互才干。

到了那一天，或许人类真的会像比尔盖茨所说的那样：“再也不会去运用搜索引擎，不会去出产力网站，也不会再去运用亚马逊。”

在盖茨的想象中，这个“AI助理”将有才干了解人类的需求和习气，一起会协助人类“读他们没有时刻读的书。”

如此一来，AI加持下的数字人，就成为了人类更*、更先进的输出端口。

此外，在每一具数字生成的皮郛下，人们仍能看到不一样的魂灵。

这也是今日GPT-4等先进的大模型，与数字人进行结合的*含义。

通过大模型丰厚的常识，纯熟的语义了解和交互才干，和相应职业、个人不同的需求，每一个数字人，都能够“量体裁衣”、“因人制宜”地幻化出各种不同性情、思维和技术，从而真实做到了“千人千面”的作用。

由此可见，在必将到来的AGI年代，真实决议数字人高低的，便是其*的魂灵。

上一篇：做文旅、建酒庄，白酒跨界野心有多大？

下一篇：一年卖出数百亿的司美格鲁肽，国内为何无人敢