元宇宙“引路人”?虚拟偶像百万成本困境待解
新京报贝壳财经记者 罗亦丹 李梦涵
“我,叫柳夜熙”。
近期,新晋美妆达人柳夜熙出道视频刷爆网络,视频特效部分高级感拉满,虚拟人逼真生动,发丝纹理、手部动作几乎与真人无异,虚拟人与现实人的交互也异常顺滑。这位会捉妖的美妆达人视频发布不到30小时,粉丝数一路猛涨至130万。截至11月23日,首条视频点赞量达到336.6万,粉丝数也已经达到536万。
柳夜熙背后公司创壹科技的创始人谢多盛告诉贝壳财经记者,此次两分钟的视频仅是柳夜熙登场预告,后续故事将会以单集剧情的形式陆续在抖音发布。目前,创壹科技公司服务于柳夜熙背后的大中台团队有150余人,小前台团队人数则在10人以内。
2007年,当“初音未来”用电子合成音第一次唱歌,并被日本秋叶原宅男们称为“公主殿下”时,不少人以为这只是二次元的狂欢。随着“洛天依”走进李佳琦直播间带货、“柳夜熙”一天吸引百万粉丝,虚拟人已经不知不觉进入普通大众生活。
今年,随着元宇宙概念蹿红,作为其要素之一的虚拟人同样被推至台前。“2018年,当我们进入这一赛道时,很多人对什么是虚拟人根本不了解,但到了今年仿佛所有人都明白了,很多投资人也在寻找相关投资标的。”次世文化公司创始人陈燕告诉新京报贝壳财经记者。
贝壳财经记者采访虚拟人从业者了解到,目前虚拟人分为超写实虚拟人、虚拟偶像和虚拟人交互产品三大类,并已在不同领域实现商业价值。不过,每秒上千到几万的高昂制作成本、实时渲染技术难题以及难以逾越人脑的AI技术也成为虚拟人发展的瓶颈。
●打造
有虚拟偶像吸粉超千万“几分钟视频成本数万元”
手举偶像海报,一字排开,口中齐声大喊“生日快乐”……11月2日前后,中科院大学、上海交大以及海外剑桥、纽约大学学生不约而同在B站上传庆生视频。粉丝应援阵容强大,至于主人公,并非传统意义上的真人,而是A-Soul的虚拟偶像“珈乐Carol”。
A-Soul是乐华娱乐2020年11月推出的虚拟偶像团体,起初一度遭到原生虚拟主播粉丝的抵制,但开播不久后,其细腻的建模和“中之人”过硬的业务素质,让不少反对者“黑转粉”。
一年时间,A-Soul团队已经跻身B站头部虚拟主播,其中成员“嘉然”B站粉丝数达到126万。A-Soul走红甚至衍生出“我真的好喜欢你啊”、“可爱捏”、“带我走吧”等不少亚文化“梗”。
虚拟偶像团体破圈,有着行业爆发的影子。根据B站董事长陈睿公开的数字,2019年B站有超过32000名虚拟主播开播。
但是,扎堆进场试水,并不意味着都能见到成功的曙光。一组公开数据显示,截至2021年8月18日,B站相对有关注度的3472个虚拟主播中,1827人当月营收0元,也就是说,超过半数没有一分钱入账。
“实际上,只要设计出一套3D模型,再购买一套动作捕捉设备,就可以成为初级虚拟偶像。”虚拟偶像产业观察者刘文(化名)告诉贝壳财经记者,普通虚拟游戏主播采用的技术系基于面部动作捕捉,换句话说,只要套上一个2D或3D的“皮”,就可以成为一名虚拟主播,并且能像真人主播一样直播。
不过,刘文称,动捕设备和3D建模都需要成本,效果越好的设备和模型成本越高,这导致不少虚拟主播入不敷出。
火星文化创始人李浩早在2017年就启动了虚拟偶像业务,目前旗下虚拟形象“默默酱”在全网粉丝已经超过1800万。他对贝壳财经记者表示,目前虚拟偶像在制作流程上大同小异,“首先使用建模工具制作3D模型并不断迭代,再通过动作捕捉技术驱动人物模型的动作,以及找一个‘中之人’。”
李浩告诉记者,目前绝大多数虚拟主播采用“中之人”和动捕技术进行直播。“‘初音未来’和‘洛天依’最初发布时都是采用电子合成音,但从日本第二批虚拟偶像诞生开始,‘中之人’开始大量使用,这是因为必须要让虚拟偶像在说话的时候更像人。目前在技术上,电子合成音说话和真人有相对较高的吻合度,但唱歌时就会产生明显的技术壁垒,无法有效处理喘息、气流音等效果,会让观众觉得‘不对劲’,而采用动捕技术可以有效地降低制作成本。”
实际上,虚拟偶像直播比真人直播要难上一个数量级。据了解,目前面部动捕与身体动捕属于不同的技术,所以在极端情况下,当一名虚拟偶像出现在直播间,其面部、身体要由两个人分别携带动捕设备。此外,还需要技术人员将两块动捕动画进行合成,再与“中之人”的语音录制进行音视频合成,最终才能呈现出观众看到的直播间效果。
去年4月,“洛天依”与李佳琦同框直播的噱头引发一波关注。直播过程中,一度出现李佳琦能听到“洛天依”的声音,观众却听不见的“翻车事故”。
李浩向记者介绍,虚拟偶像背后往往需要一个团队来支持,“以‘默默酱’为例,内容团队有十个人,包括导演、剧本、动捕人员、声优等。而技术方面,根据发布视频的不同,动画师还要对‘默默酱’的模型进行修改。一条普通的短视频成本可能在6000元左右,几分钟的定制类视频成本则要数万元。”
如果说虚拟偶像的技术和动画团队可以替代,“中之人”毫无疑问是虚拟偶像的灵魂。乐元素2018年9月推出虚拟偶像企划《战斗吧歌姬!》,运营两年多后,6位歌姬的“中之人”今年2月“毕业”,并在B站发布了告别视频。此后,当运营方宣布重新招募“中之人”,不少粉丝在留言中表示:“换‘中之人’还是旧皮的话不能接受。”
“我们和‘中之人’深度绑定,如果虚拟偶像没有了‘中之人’,起码要停更一个月,因为即便找到新的声优训练声音,聊天没问题,但唱歌很容易被看穿。”李浩说。
●瓶颈
柳夜熙烧钱爆红背后:高昂成本与技术高墙
早在半年前,创壹科技就嗅到了元宇宙的风口,并开始着手打造柳夜熙这一虚拟人IP,从市场定位、人物设定、人物制作、故事情节创作、拍摄执行、后期制作等各个方面都经过了不断的打磨。柳夜熙的东方面孔、中国风的妆容与捉妖师的身份契合了当下盛行的国潮风尚,同时妆容中荧光元素运用、充满科幻感的特效与赛博朋克风格的后期色调又迎合了Z时代年轻人的喜好。
对于柳夜熙的走红,创壹科技创始人谢多盛表示并不意外。团队复盘时也曾对此展开过讨论:柳夜熙的爆红50%是因为元宇宙的概念热度,30%是因为其2.5次元的设定和技术水平,20%是视频创意和世界观的搭建。目前市面上的虚拟人大多是以虚拟偶像的模式运营为主,可大致分为养成类、人格化类、二次元女团等类型,虚拟人所处时空也多是二次元或者三次元。而创壹科技对于柳夜熙的定位则是2.5次元——二次元是纯CG,三次元是现实世界,2.5次元则是游离于二者之间的存在。
就当前来看,柳夜熙等后续虚拟人IP的变现方式短期内难以实现,仅靠烧钱能否维持其长时间的运转仍要打上一个问号。但在创壹的战略布局中,柳夜熙等后续虚拟人的变现方式主要有两种——传统IP经济和元宇宙未来的商业可能。
贝壳财经记者注意到,目前进行直播的虚拟偶像大多以二次元画风为主,而“柳夜熙”、“翎”等与真人观感类似的虚拟偶像,更大程度上被称为“超写实虚拟人”,这类虚拟人往往并不直播,而是出现在微博、抖音、小红书等社交平台,像网红一样通过自己的照片和视频吸引粉丝,接商业代言。
“我们不做传统的二次元,也不碰虚拟主播的领域。”“翎”的制作方、次世文化公司创始人陈燕告诉贝壳财经记者,“我们推出的虚拟人主要应用在泛娱乐领域、品牌领域,粉丝也大多是比较关注时尚生活的群体,如果说二次元虚拟偶像的粉丝可以类比B站粉丝,那么超写实虚拟人的粉丝与小红书的粉丝构成更相似。”
贝壳财经记者梳理看到,以“翎”这种中国风超写实虚拟人为例,所接商业广告大多与时尚明星近似,包括奢侈品和美妆品牌等。
相比二次元虚拟偶像,超写实虚拟人的视频制作成本也上了一个台阶。“柳夜熙”团队接受贝壳财经记者采访时表示,推出“柳夜熙”之前的半年多时间,研发成本、人员成本、技术成本等投入“远超百万”。
陈燕向贝壳财经记者透露,为了覆盖成本,公司内部做了非常严格的产品规划,在下场每一个产品之前,会做五六个步骤的内部评估,包含每一个IP在什么场景使用它,企图打造的一个IP是什么级别。“以‘翎’为例,我们会细化到将视频拆解成15秒、1分到2分钟,一个季度策划一次大事件等,否则如果周更或者日更的话,根本就无法覆盖成本。”
事实上,国内较早亮相的写实类虚拟人可以追溯至2018年5月,NExT Studios与Epic联合推出的高保真数字虚拟人塞壬(Siren)。该项目研发过程中,可以看到虚拟人行业技术昂贵的一面。
腾讯互娱工程师David 曾在《虚拟数字人Siren的诞生》一文中用“艰难”一词来形容塞壬项目,“电影画面一帧动辄几小时的渲染时间,相比于电影行业,我们所有的计算都必须在当时发生。虚拟人的程序以60帧每秒运行,所有的计算都必须在16毫秒的时间段内做完。”最终,来自四个国家的顶级团队克服软硬件等各方面带来的技术瓶颈后,完成了这一项目。
目前大部分超写实虚拟人项目仍然难以做到实时直播。“现在市面上能做到实时的(虚拟人)基本上都是风格化的角色,写实风格的通常都是用离线CG流程做的视频,有的只是拿虚幻引擎作为渲染器用,我们一直坚守在实时+写实这条线上,因为我们的目标就是将写实数字人做到实时,落地在实时交互的场景。”NExT Studios新技术研发中心副总监葛诚说。
随着技术迭代,超写实虚拟人的应用场景将越来越广泛。6月20日,新华社和腾讯联合推出数字航天员、数字记者“小诤”,这名超写实虚拟人将承担起普通记者难以实现的载人航天工程、行星探测工程“现场报道”任务。葛诚告诉贝壳财经记者,NExT数字人团队一直维持在20个人以内。
●变革
虚拟人+AI会成为元宇宙“引路人”吗?
随着技术发展,超写实虚拟人、虚拟偶像甚至智能交互产品的界限已经逐渐模糊,未来虚拟人领域能否实现技术上的“统一”,带给市场很大想象空间。
腾讯互娱方面表示,在疫情这类“黑天鹅”事件下,人和人之间被隔离开,会越发地需要进行互动、连接,虚拟人和虚拟世界就不只是作为娱乐的场景,需要考虑人类之间的社会性、依赖性,数字人能够发挥更大的社会价值。“小诤”除了数字航天员和数字记者身份外,未来也将会进行更多面向用户、年轻人的互动。“小诤”被越来越多朋友所认识、喜爱后,也可以成为代表主流价值观的当代年轻人“虚拟偶像”之一。
“实际上,相比虚拟人漂亮的外表,能够跟用户产生持续的交流更重要。”陈燕说,他的愿景是在守好已有业务线的情况下,追求与用户交互以及虚拟IP的智能化和场景化,发展为一家“虚拟人生态”公司。
“目前,次世文化正在跟‘小冰’等顶尖AI公司合作,力图拓展更多智能化的虚拟产品,也就是说虚拟人既是IP,但也会加入很多AI智能功能,来满足各种细分场景的需求。”他说。
人物建模、实时渲染和语音识别、动作识别等技术发展,让不少从业者看到了虚拟人未来的应用前景。2021世界人工智能大会开幕式上,接连出现四个虚拟人与真人主持同台出场——B站虚拟偶像“泠鸢”,百度的“小度”,小米的“小爱同学”和微软的“小冰”。其中,后三位虚拟人均已有自己的应用场景,比如用户可以通过喊“小爱同学”在小爱音箱上实现点歌。
贝壳财经记者看到,当前不少虚拟人产品已经在市面上进行推广,如科大讯飞、相芯科技等公司相继推出TO B的虚拟人产品。
有虚拟人产品销售业务人员告诉贝壳财经记者,使用其提供的成品虚拟新闻主播,费用一年为100万元左右,虚拟主播可以根据输入的文字内容自动生成适配的语音和表情,从而把文字报道转换为视频播报。“如果定制自己形象的虚拟主播则需要几百万,因为我们需要对你们提供的模特进行动捕和算法分析。”
“很多人看虚拟人,只看到了表象的东西,但我一直觉得虚拟人只是一个载体,最终推动虚拟人发展的是人的需求。现实世界中,当一个人身体存在缺陷,通过构建自身的虚拟形象,可以在虚拟世界里重新选择(自身形象)。通过AI技术,一个虚拟人IP也应该跟人类建立起更稳固的关系。”陈燕说。
京东集团副总裁梅涛接受贝壳财经记者采访时称,虚拟数字人的AI技术可能会在未来产生颠覆性效果。“以京东自己的数字人为例,既有2D和3D卡通数字人,也有真人数字人。数字人涉及的技术非常广,既包括视觉和语音识别,还有语音合成和对话、图形学。未来我们希望数字人能够真正完成一些任务,比如跟小孩聊天、陪伴老人、市民热线、智能客服等,为此我们基于京东电商场景中智能客服的丰富实践,来打造富有自己特色的数字人,希望未来一到两年形成比较成熟的标准化服务。大家也可以看到,现在也有很多初创公司在做数字人,经过几年发展,可以说数字人技术和产品快要到一个爆发期。”
据了解,2018年SIGGRAPH Asia展台上,“塞壬”曾经展示过以AI驱动的样片,但当时AI只能做一轮对话。
“现在AI已经可以实现多轮对话了,更加智能,AI驱动数字人,未来可期。虚实融合是未来大趋势,数字人逐渐能和真实世界发生情感上的共鸣,就可以作为社会的一分子存在,想想我们小时候看的变形金刚、圣斗士、机器猫、葫芦娃都是虚拟角色,也成为了影响我们那一代人的IP。随着数字人蓬勃发展,可以预见未来会有更多和这个真实社会产生纽带的虚拟角色。‘中之人’是目前数字人逃脱不开的话题,但是相信未来,AI在某些特定领域能更好地驱动数字人。”葛诚表示。
“虚拟偶像能直播,必须要有‘中之人’。超写实虚拟人像人,不能直播‘没有灵魂’。手机里的智能语音可以交互,但交互水平还太低。”刘文对贝壳财经记者表示,如果把虚拟偶像、超写实虚拟人和市场上已有的虚拟助手融合在一起,这可能就是虚拟人通向元宇宙的未来。