比特币今日暴跌背后原因
大模型加持后,数字人“更像人”了吗?
文章来源:科技云
图片来源:由无界AI生成北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤......当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。
面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。
毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最关键的是技术瓶颈,如何让数字人摆脱“空有一副好皮囊”的市场评价是一大难题。
然而,随着大模型的出现,数字人的发展似乎正在迎来新的机遇。
大模型赋能数字人
对于产业界而言,数字人本身并不新鲜。在过去很长一段时间内,为了又力求数字人视觉外形上的高保真呈现,生产成本不亚于制作一部专业级电影。
瑞银发布的数字人研究报告指出,高级虚拟人物的先期投入成本平均为3000万元,后期又需要真人团队完成拍摄、配音、剪辑。以乐华娱乐的虚拟女团A-SOUL为例,其一支单曲制作成本约200万元,一场线下演唱会成本约2000万元。
但即便是如此高昂的成本,也解决不了数字人的互动效果问题。由于智能水平不足,与其说它是数字人,更像是一个没有灵魂的数字皮套。
高成本,再加上互动效果不佳,使得数字人的使用被限制在厂商内部或大企业客户的试验项目。
因此,当具有学习能力的生成式大模型颠覆了内容制作范式后,面向更广范围的中小型企业用户、优先规模化落地使用的廉价数字人成为了可行方案。
据一名人工智能研究人员介绍,大模型对数字人的重塑与赋能主要体现为降本增效。
从技术角度来说,搭建一个数字人主要分为建模、驱动、渲染几个环节。传统的数字人主要依托计算机图形学技术+真人动作捕捉,需要采集大量的真人数据,深度建模,耗时长,效率低,成本高。
如今在大模型的加持下,通过AI算法,基于深度学习模型、动作模拟、情感模拟等技术,只需要几分钟的真人视频,用大模型训练若干个小时,就可以生成逼真的数字人,制作成本大大降低。
不仅如此,数字人在成本降低的同时,效能也大大提升。
在大模型出现以前,数字人在外形上差异度较小,而且只能根据输入的统一脚本,“照本宣科”地回答问题。
在大模型的赋能下,数字人拥有了“灵魂”,不仅外貌特征可以自定义设计,智能化、交互性也有了很大提升。比如在一些直播带货场景中,数字人已经可以与受众进行基础互动。
比如,百度智能云发布的曦灵数字人,大模型的加持下,可以15分钟快速完成直播间搭建,自动生成匹配产品特色的讲品话术,开启智能互动问答。
在某餐饮品牌的直播间,曦灵数字人主播自动生成直播话术,包含开场破冰、福利放送、暖场话术、催单话术等。在这场真人与曦灵数字人的接力直播中,用户竟然没有丝毫察觉。
更令人惊讶的事,在真实6小时的直播比对中,数字人主播仅需真人主播15%的成本,就可获得真人主播85%GMV。
除了直播带货,百度智能云曦灵作为国内首个大模型全面重构的数字人平台,还可为企业提供2D真人、3D写实、3D超写实的人像,实现视频制作、数字员工、数字人代言人等多种应用。
比如,在曦灵平台,只需5分钟的真人视频,半小时即可训练人像,录制100句话语,24小时生成专属音色库,相比真人授课成本只需过去的30%,录制效率提升20倍。
不难发现,经过大模型重塑与赋能的数字人,一定程度上摆脱了价格昂贵、互动性差等问题,越来越广泛地出现在短视频、直播间中。
同时,数字人开始朝着更多“身份”进军——银行理财师、律师、老师、已逝的名人……数字人正在成为任何想成为的人,也为这条日渐拥挤的赛道带来了新的机遇。
让数字人更像“人”
大模型的出现让数字人“脱胎换骨”,成为如今最火的创业赛道之一。