0571-89774660
EN
  • 试用申请
  • LiveVideoStack专访相芯科技蔡锐涛,5G时代,AI虚拟形象会成为人机交互不可分割的一部分
    相芯2019.12.17

    (相芯科技的AI虚拟形象在展会现场和大家互动)

    在LiveVideoStackCon2019深圳音视频技术大会前夕,LiveVideoStack邀请相芯科技资深图形引擎开发经理蔡锐涛接受采访,从个人成长聊到智能图形技术方面的创新与应用,再到相芯科技在虚拟形象上的优势,最后关于5G对于图形技术的升级方向。

    LiveVideoStack:蔡锐涛你好,感谢接受LiveVideoStack的采访,能否向大家简单介绍下自己。

    蔡锐涛:我来自杭州相芯科技有限公司,资深图形引擎工程师。硕士,毕业于浙江大学CAD&CG实验室。2016年加入相芯科技,是视频AR特效SDK的技术负责人,主要从事跨平台的2D/3D AR图形引擎的开发工作,对图形图像处理中智能美颜、美肤美型、美体瘦身、滤镜特效、2D/3D贴纸、手势识别、背景分割、人脸特征点定位、三维人脸重建以及人脸表情动画合成、角色物理动画以及真实感渲染等技术有较深入了解,同时也十分关注音视频领域相关技术。

    (相芯科技资深图形引擎开发经理蔡锐涛)

    LiveVideoStack:浙江大学CAD&CG作为国家重点实验室,在其中的经历对你有哪些影响?

    蔡锐涛:我在本科毕业后到浙大CAD&CG实验室继续硕士阶段的学习,做三维人脸重建以及人脸表情动画合成相关工作,对图形学的认知越来越广,也发现自己未知的东西也越来越多,探索充满挑战和惊喜,也被她深深的吸引。在加入相芯科技后,我主要做的也是与图形引擎开发有关的工作,相芯科技做的视频AR特效SDK已经服务于500+ B端客户,包括百度、阿里等,产品与音视频结合后可以服务于众多行业,包括社交、直播、短视频、在线教育、广告营销等。浙大CAD&CG实验室的经历让我对图形技术有了更深层次的理解,为之后的工作打下了坚实的基础,在不断的探索过程中也更加坚定了自己对图形学的热爱。

    LiveVideoStack:对图形图像处理技术感兴趣的开发者,你有没有推荐的书籍?

    蔡锐涛:关于计算机图形学基础,可以看看《计算机图形学》《数字图像处理》。入门实践可以看看Khronos小组编写的王锐教授等译著的红宝书《OpenGL编程指南》。细分方向上,几何处理方面,推荐看看计算几何Computational Geometry: Algorithms and Applications, Third Edition.。渲染上有两部经典的书Real-Time Rendering 以及Physically BasedRendering。游戏引擎架构入门有本不错的书籍Game Engine Architecture,Third Edition,由Milo大神译著《游戏引擎架构》。当然只学习书本知识是不够的,要多到实际中去,图形学在很多方向上,对工程能力要求也较高,建议多多“造轮子”,加深理论理解,提升工程能力。此外,多关注学术前沿,计算机图形学会议SIGGRAPH,SIGGRAPH Asia等,会议有很多courses也是不错的学习和实践的地方。

    (相芯科技AI虚拟形象的风格类型)

    LiveVideoStack:目前,相芯科技在智能图形技术方面具体有哪些创新与应用?

    蔡锐涛:基于相芯科技的“数字化身驱动”和“数字化身创建”两大核心技术,相芯科技已经形成了较为成熟的四大解决方案,即:视频AR特效、虚拟形象自动生成、AI虚拟助手解决方案和AI虚拟主播解决方案。

    视频AR特效相信大家已经很熟悉了,就不做赘述了。虚拟形象自动生成技术仅需一张自拍照片,即可同步生成个性化3D卡通形象,这项个人形象技术,可以轻松接入到各种VR/AR的应用中去,应用前景较为成熟与广阔。而AI虚拟助手能够实现与用户面对面互动的可视化人机交互体验,企业用户可选择通用形象或者通过定制具有品牌IP的声音、形象获得专属的智能助手,无论是嘴型、表情还是声音,均已达到流畅生动的交互效果。AI虚拟主播解决方案目前比较多的运用在报业和电视台,只需要输入文字或音频,就能快速生成具备精确口型、丰富面部表情以及动作的AI虚拟主播播报视频,帮助需求方提高新闻内容生产效率,降低制作成本。

    LiveVideoStack:目前市场上也有其他做AI虚拟主播和AI虚拟助手的厂商,相芯科技相比其他厂商有哪些核心优势?

    蔡锐涛:形象方面是我们比较大的优势。我们具备业内最全面的形象类型,支持2.5D真人、3D卡通人物、3D卡通动物、3D高精度仿真人的形象定制,同时支持半身和全身定制,来满足不同平台IP定制化的需求。

    不仅如此,我们的形象具备丰富的情绪表情和动作姿态。相芯科技自主研发的语音动画合成技术(STA)将人工智能与计算机图形学相结合,当计算机获取语音或者文本中的内容信息后,STA即可通过计算机图形学合成技术对虚拟形象的面部进行驱动并融合,实现极具逼真感的表情还原。我们也会根据客户需求,提供包含形象、情绪、动作等多维度形象配置服务,同时兼容市面上的大部分语音厂商,致力于打造更完美的AI虚拟形象。

    LiveVideoStack:随着5G等网络基础设施的完善,网络带宽更大,网络传输延迟更低,在这个过程中你觉得图形图像处理技术有哪些重要的升级方向?

    蔡锐涛:5G的到来使得很多数据密集型低时延要求的领域都会有新的机会,云计算,边缘计算,边云协同,物联网,自动驾驶,远程医疗,虚拟现实,超高清视频等等。在音视频领域,最直接的结果是图像清晰度的提升,另外数据量上也会较4G高出一两个数量级。图像清晰度的提升,一方面可以直接由硬件设备升级支持,另一方面,整个互联网上已经积累了海量的中低清图像视频,那么,图像超分辨率,会有很好的应用场景,并且处理海量数据带来的延迟是个蛮大的挑战,这里充满机会。同时,图形分辨率提升,带宽也急剧加大,高质量的图像压缩算法也有施展拳脚的地方。此外呢,个人觉得VR虚拟现实,AR增强现实,数字化身也会有很好的机会,这三个不同的领域,有个共性,需要高质量的真实感渲染。在当前终端上,由于传输带宽过小,大部分的逻辑计算和图像渲染都要依赖于本地的硬件水平,增加了用户的使用成本,并且很难达到实时的要求。如果采用端云结合模式,云端高质量渲染,云端AI计算,终端显示,可以有效降低用户使用成本,小于5ms的时延能极大提升体验,这其中也有不少机会。数字化身也是我们相芯主攻方向之一。