4月19-20日,专注于音视频领域的多媒体技术峰会——LiveVideoStackCon在上海顺利闭幕。本次大会以“技术开启新视界”为主题,汇聚了全国音视频技术的资深专家和从业者,围绕画质评价与增强、服务端与架构设计、前端与用户端、音频技术和解决方案等不同方向展开深入挖掘和探讨,不断拓展了音视频技术的应用场景和行业边界。
在“解决方案”专场的主题演讲中,相芯科技资深图形引擎开发经理蔡锐涛从音视频内容互动技术、行业实践及全链路人脸AR特效解决方案三个角度,全方位介绍了相芯科技内容互动技术在音视频领域的新实践,并展示了其丰富的AI+3D内容生成与互动的行业解决方案。
创新内容互动技术,20余款功能随你挑
随着经济社会加速发展,与互联网一起成长起来的Z世代正在成为社会新的消费主力。他们追求个性与自我,崇尚兴趣至上,热爱社交,渴望被关注,并将“虚拟”网络世界当成他们追求精神活动的载体,从中寻求自我认同和自我成长。
如何吸引他们的目光,抓住他们的需求,进而助推音视频行业发展?蔡锐涛从人脸内容互动技术切入,全面介绍了相芯科技通过技术提升内容层次、丰富内容趣味、拓展内容边界,从而帮助用户有效提升内容触达率,大大强化了企业与用户间的粘性。
(AI+3D内容互动新技术)
会上,蔡锐涛深入剖析了相芯科技的三款产品——NAMA、PTA、STA。这些产品基于不同的底层技术,为各类企业的内容创造提供了更多可能。以NAMA产品线为例,经过近3年的发展,已延伸出了美颜、贴纸、Animoji、背景分割、海报换脸等16项功能。其中,在美颜技术方面,相芯科技已拥有包含美颜、美妆、美型、滤镜等在内的一套完整的解决方案,并于不久前推出了主打质感美颜的SDK包。
PTA(Photo-to-Avatar)是一项可以根据用户上传的自拍照片,生成与用户相似且美观的3D虚拟形象的服务。相芯科技的生成算法目前可以自动匹配脸型、五官特征、头发胡子、肤色唇色、眼睛等,生成和输出与人像高度匹配的3D数字化身。且生成后,还支持用户进行捏脸调整,实时装扮虚拟形象,及进行实时表情驱动。
STA(speech-to-animation)语音驱动是相芯科技研发的一套驱动虚拟形象嘴唇动作与语音实时同步呈现的产品技术。这一技术在内容动态呈现和内容制作两方面有很好的落地场景,可为用户提供一种内容创作低门槛、体验更自然的语音人机交互方式。
“经过近3年的发展,我们已积累了400+家B端用户,SDK月均鉴权调用已超10亿次。”蔡锐涛说,目前相芯科技的全链路人脸AR特效解决方案,已经成为涵盖内容生成、内容交互、内容渲染的一个完整解决方案,可满足各类用户对AI+3D内容创作的需求。
视频社交成主流,SDK走向轻量化
近年来,在监管收紧、技术迭代、消费升级、人工智能应用越来越广的背景下,短视频行业正在迎来一轮新的洗牌。如何在这一轮竞争中寻求突破口,为更多短视频企业的发展赋能?以技术来撬动内容生产,满足不同用户的不同需求,是相芯科技一直以来的追求。
蔡锐涛指出,从今年初开始,市场上已出现了头条多闪、聊天宝、马桶MT等多个主打视频社交的产品,陌生人社交或将成为年轻一代的主流模式。而相芯科技早已瞄准这一领域,并研发出了Avatar捏脸技术。
(动图)
这一SDK开发包首先具有轻量级的渲染引擎,提供多种材质模板,可供客户快速自定义渲染效果,且SDK包最小只有2.6M;其次,还支持用户根据自己喜好对虚拟角色进行捏脸、换装、换发等,制作出一个和自己很像且更美观的3D数字化身;最后,还提供内容制作工具,方便让客户随时做出想要的产品。
此外,针对模型道具制作过程中可能存在的运行内存问题,蔡锐涛表示,相芯科技研发了数据压缩和模型优化技术,力争用最小的运行内存来实现用户实时捏脸、驱动虚拟形象等效果。以模型8000个顶点、40个捏脸维度为例,全部模型内存占用最少需要458M,但经过压缩优化后,相芯科技可将运行内存降至60M,让绝大部分的设备都可以使用。
(音视频处理SDK架构)
“解决内存问题后,为提高客户美术制作效率,我们还为客户提供了自动模型生成工具,让客户可以一键生成表情动作模型。”蔡锐涛强调,相芯科技一直希望能深入客户的各类应用场景,用技术帮助客户解决问题,用产品赋能客户发展,让更多扎根于直播、短视频、社交等领域的客户创新变革,站上新起点,迎接新未来。