LiveVideoStack专访相芯科技蔡锐涛，5G时代，AI虚拟形象会成为人机交互不可分割的一部分

相芯2019.12.17

（相芯科技的AI虚拟形象在展会现场和大家互动）

在LiveVideoStackCon2019深圳音视频技术大会前夕，LiveVideoStack邀请相芯科技资深图形引擎开发经理蔡锐涛接受采访，从个人成长聊到智能图形技术方面的创新与应用，再到相芯科技在虚拟形象上的优势，最后关于5G对于图形技术的升级方向。

LiveVideoStack：蔡锐涛你好，感谢接受LiveVideoStack的采访，能否向大家简单介绍下自己。

蔡锐涛：我来自杭州相芯科技有限公司，资深图形引擎工程师。硕士，毕业于浙江大学CAD&CG实验室。2016年加入相芯科技，是视频AR特效SDK的技术负责人，主要从事跨平台的2D/3D AR图形引擎的开发工作，对图形图像处理中智能美颜、美肤美型、美体瘦身、滤镜特效、2D/3D贴纸、手势识别、背景分割、人脸特征点定位、三维人脸重建以及人脸表情动画合成、角色物理动画以及真实感渲染等技术有较深入了解，同时也十分关注音视频领域相关技术。

（相芯科技资深图形引擎开发经理蔡锐涛）

LiveVideoStack：浙江大学CAD&CG作为国家重点实验室，在其中的经历对你有哪些影响？

蔡锐涛：我在本科毕业后到浙大CAD&CG实验室继续硕士阶段的学习，做三维人脸重建以及人脸表情动画合成相关工作，对图形学的认知越来越广，也发现自己未知的东西也越来越多，探索充满挑战和惊喜，也被她深深的吸引。在加入相芯科技后，我主要做的也是与图形引擎开发有关的工作，相芯科技做的视频AR特效SDK已经服务于500+ B端客户，包括百度、阿里等，产品与音视频结合后可以服务于众多行业，包括社交、直播、短视频、在线教育、广告营销等。浙大CAD&CG实验室的经历让我对图形技术有了更深层次的理解，为之后的工作打下了坚实的基础，在不断的探索过程中也更加坚定了自己对图形学的热爱。

LiveVideoStack：对图形图像处理技术感兴趣的开发者，你有没有推荐的书籍？

蔡锐涛：关于计算机图形学基础，可以看看《计算机图形学》《数字图像处理》。入门实践可以看看Khronos小组编写的王锐教授等译著的红宝书《OpenGL编程指南》。细分方向上，几何处理方面，推荐看看计算几何Computational Geometry: Algorithms and Applications, Third Edition.。渲染上有两部经典的书Real-Time Rendering 以及Physically BasedRendering。游戏引擎架构入门有本不错的书籍Game Engine Architecture,Third Edition，由Milo大神译著《游戏引擎架构》。当然只学习书本知识是不够的，要多到实际中去，图形学在很多方向上，对工程能力要求也较高，建议多多“造轮子”，加深理论理解，提升工程能力。此外，多关注学术前沿，计算机图形学会议SIGGRAPH，SIGGRAPH Asia等，会议有很多courses也是不错的学习和实践的地方。

（相芯科技AI虚拟形象的风格类型）

LiveVideoStack：目前，相芯科技在智能图形技术方面具体有哪些创新与应用？

蔡锐涛：基于相芯科技的“数字化身驱动”和“数字化身创建”两大核心技术，相芯科技已经形成了较为成熟的四大解决方案，即：视频AR特效、虚拟形象自动生成、AI虚拟助手解决方案和AI虚拟主播解决方案。

视频AR特效相信大家已经很熟悉了，就不做赘述了。虚拟形象自动生成技术仅需一张自拍照片，即可同步生成个性化3D卡通形象，这项个人形象技术，可以轻松接入到各种VR/AR的应用中去，应用前景较为成熟与广阔。而AI虚拟助手能够实现与用户面对面互动的可视化人机交互体验，企业用户可选择通用形象或者通过定制具有品牌IP的声音、形象获得专属的智能助手，无论是嘴型、表情还是声音，均已达到流畅生动的交互效果。AI虚拟主播解决方案目前比较多的运用在报业和电视台，只需要输入文字或音频，就能快速生成具备精确口型、丰富面部表情以及动作的AI虚拟主播播报视频，帮助需求方提高新闻内容生产效率，降低制作成本。

LiveVideoStack：目前市场上也有其他做AI虚拟主播和AI虚拟助手的厂商，相芯科技相比其他厂商有哪些核心优势？

蔡锐涛：形象方面是我们比较大的优势。我们具备业内最全面的形象类型，支持2.5D真人、3D卡通人物、3D卡通动物、3D高精度仿真人的形象定制，同时支持半身和全身定制，来满足不同平台IP定制化的需求。

不仅如此，我们的形象具备丰富的情绪表情和动作姿态。相芯科技自主研发的语音动画合成技术（STA）将人工智能与计算机图形学相结合，当计算机获取语音或者文本中的内容信息后，STA即可通过计算机图形学合成技术对虚拟形象的面部进行驱动并融合，实现极具逼真感的表情还原。我们也会根据客户需求，提供包含形象、情绪、动作等多维度形象配置服务，同时兼容市面上的大部分语音厂商，致力于打造更完美的AI虚拟形象。

LiveVideoStack：随着5G等网络基础设施的完善，网络带宽更大，网络传输延迟更低，在这个过程中你觉得图形图像处理技术有哪些重要的升级方向？

蔡锐涛：5G的到来使得很多数据密集型低时延要求的领域都会有新的机会，云计算，边缘计算，边云协同，物联网，自动驾驶，远程医疗，虚拟现实，超高清视频等等。在音视频领域，最直接的结果是图像清晰度的提升，另外数据量上也会较4G高出一两个数量级。图像清晰度的提升，一方面可以直接由硬件设备升级支持，另一方面，整个互联网上已经积累了海量的中低清图像视频，那么，图像超分辨率，会有很好的应用场景，并且处理海量数据带来的延迟是个蛮大的挑战，这里充满机会。同时，图形分辨率提升，带宽也急剧加大，高质量的图像压缩算法也有施展拳脚的地方。此外呢，个人觉得VR虚拟现实，AR增强现实，数字化身也会有很好的机会，这三个不同的领域，有个共性，需要高质量的真实感渲染。在当前终端上，由于传输带宽过小，大部分的逻辑计算和图像渲染都要依赖于本地的硬件水平，增加了用户的使用成本，并且很难达到实时的要求。如果采用端云结合模式，云端高质量渲染，云端AI计算，终端显示，可以有效降低用户使用成本，小于5ms的时延能极大提升体验，这其中也有不少机会。数字化身也是我们相芯主攻方向之一。