腾讯多项AI黑科技亮相SIGGRAPH Asia 2018

2018年12月4日到7日，第11届SIGGRAPH Asia在日本东京举行。作为国际顶级专业学术会议，SIGGRAPH Asia从2008年起每年召开，这也是有计算机图形图像研究领域“奥斯卡”之称的SIGGRAPH唯一的分会。SIGGRAPH Asia 2018汇聚了全球从事科研（硬件、软件）、电影、游戏、艺术、动画、人机交互、教育和新兴技术等方向的最前沿的专家、创意人员以及爱好者，展示世界顶尖的科学、技术、创新与思想。

以这一世界级舞台为窗口，“清华大学-腾讯联合实验室”联合腾讯AI Lab、互娱NEXT技术中心、优图实验室、音视频实验室、腾讯视频、自动驾驶业务中心等多个腾讯顶尖AI团队，参与SIGGRAPH Asia 2018的展厅展示及Exhibitor Talk，为近万名来自60多个国家的参会者，带来了高保真可交互的虚拟人Siren、自动生成日系二次元头像的AI画师YUI、基于人眼视觉的腾讯丽影、基于人脸人体识别技术的智慧商超、防遮挡的视频智能弹幕、基于智能物联的微派机器人、自然场景汉字的自动识别等多项行业顶尖AI体验。

一、高保真可交互虚拟人Siren

腾讯互娱NEXT技术中心 & AI Lab

近年来，AI技术的日渐成熟促进了IoT设备的爆发式增长，语音助手、聊天机器人逐渐走进我们的生活。为了给用户创造出更生动的交互体验，腾讯互娱NEXT技术中心与AI Lab联合研发的Siren AI，赋予虚拟人AI的大脑和具体的形象，让虚拟人能听会道。

基于虚拟人的语音交互是一个复杂的过程，涉及多个AI研究和工程领域：语音激活检测（VAD），语音识别（ASR），自然语言处理（NLP），语音合成（TTS），语音驱动面部动画（ADFA）。

在虚拟人Siren的研究中，基于腾讯已有的AI解决方案，主要攻坚的是语音驱动面部动画（ADFA）相关技术。在解决实时驱动虚拟人的技术难点时，团队注意到Siren具有精巧的Rig Logic，能将80维左右的Rig Controls参数映射到数千维的脸部Rig Elements参数（Blend Shapes, Joints, Wrinkle Maps, etc. ）。基于规则的映射，研发团队将语音驱动模型输出并抽象到80维左右，大大缩减了模型规模，同时降低了训练难度。在训练中，团队在面部动捕的同时采集音视频数据和Rig Controls序列数据，然后离线处理成一一对应的训练数据，并采用Time Code和专业的音视频采集设备数据解决对齐和掉帧的问题。

二、自动生成日系二次元头像

--AI画师YUI 腾讯AI Lab

图像转换（Image Translation）是目前计算机视觉领域最热门的研究方向之一。腾讯AI Lab运用这一技术，自主研发了可以将用户的真人头像转换成萌萌二次元头像的“画师YUI”，在本次大会上和与会者充分互动。

YUI背后的核心技术是AI Lab自研的 “堆叠式循环一致性生成对抗网络”。它首先学习低分辨率的图像转换，然后基于低分辨率的转换结果在更高分辨率下学习图像转换，进而提高图像转换质量。团队采用了基于生成对抗网络（GAN）的方式来训练 YUI 的转化网络。这一生成对抗网络由生成器和判别器两部分组成。生成器不断地学习如何生成更高质量的二次元形象来欺骗判别器，同时判别器也不断学习如何更好地区分原始的二次元形象和生成的二次元形象。两者相互促进，最终使生成器能够根据输入人像生成接近人类画师水平的二次元形象。目前，用户可以通过微信小程序利用该技术将自己的真人头像转换为二次元头像，未来YUI将支持更精细的画风适配，甚至扩展至视频应用中。

三、更小更漂亮的视频魔术师“腾讯丽影”

腾讯音视频实验室

腾讯丽影是腾讯音视频实验室推出的基于人眼视觉标准的视频服务平台，在SIGGRAPH Asia 2018上，第一次向世界展示。腾讯丽影能将人眼视觉标准，贯穿视频处理服务的七大模块：分析、理解、修复、处理、编码、传输和评估，让每一个环节都以人眼视觉最优为目标。

（腾讯丽影的人眼视觉识别）

利用人眼视觉的特性，腾讯丽影可以自动找出视频中人眼感兴趣的部分，然后将视频分成人眼关注区域和非关注区域分别压缩和处理。同时，平台还能融合多种视频增强技术来提升视频感官质量，如去除可见噪点、低照度增强、去抖动、锐化增强、超分增强（SD->HD 2K->4K）、去除原始编码失真、去除毛刺、去除锯齿、帧率上采样、去除运动模糊、HDR等等。经腾讯丽影压缩处理后的视频，人眼的画质观感不但不会变差，反而可以超越源视频，达到视频修复并增强的效果。

四、智慧商超中的人脸人体识别

腾讯优图实验室

腾讯优图实验室在此次展会上展示了人脸人体识别技术在智慧商超、社交娱乐等场景中的应用。在城市生活方面，腾讯优Mall智慧零售系统通过大数据AI，赋能智慧零售。该技术基于人脸检测配准、人脸识别、人体Re-ID、人流密度分析以及人脸人体联合追踪等计算机视觉技术，通过腾讯优Mall智能零售系统，为消费者提供从进店、逛店到购买的全方位更优质的消费新体验。与此同时，零售商家可以通过VIP及老客到店识别、细粒度客流统计、客流轨迹统计等全面刻画场内用户行为，实现精准营销。目前，腾讯优Mall已经与百丽国际、永辉等客户达成合作。

（优图智慧商超解决方案中的客户动线分析和停留路线统计）

此外，腾讯优图联合腾讯云、每日优鲜最新推出的智能货柜解决方案，基于商品识别技术，可实现取物关门后自动生成订单结算，为用户提供“即拿即走”的流畅购物体验，准确率达99%以上。

五、智能防遮挡弹幕

腾讯视频

此次SIGGRAPH Asia中，在交互体验上，腾讯视频展示了为用户提供了智能防遮挡弹幕技术和“只看他”功能。智能防遮挡弹幕技术通过对视频内容的分析，分割出视频中的人体区域，让弹幕在经过人体区域时被遮挡，使用户可同时享受观看弹幕和视频的乐趣。同样基于AI技术对视频内容分析的“只看他”和台词提取与分享功能，也让视频用户获得更有趣的交互体验。

在观看体验上，TIE（钛）视频增强技术能给用户提供更细致的视频观看体验。它在SDR的基础上，自适应地对视频內容的对比度、饱和度优化，让呈现的画面色彩更鲜艳，层次更分明。结合视频超分辨率技术、HDR10 转换和增强技术，和ROI（感兴趣区域）编码，腾讯视频能为用户提供画面更清晰，视觉效果更好的观看体验。

六、基于智能物联的微派机器人

腾讯自动驾驶业务中心

本次大会上，腾讯自动驾驶业务中心展示了由腾讯自主研发的AI技术与物联网高度融合的智能配送机器人 - 腾讯微派。根据末端配送应用场景，提供包裹分发、智能运输、便捷签收等一体化定制服务，真正做到在室内环境下将包裹安全、高效送达。

腾讯微派集成深度定制化的机器人操作系统，依靠自主研发的高性能SHIELD 模块化自主定位导航算法，结合多传感器融合感知解决方案，自研图像识别引擎、多模态人机交互等机器人核心技术，已实现在复杂大场景下构建地图、智能网联、规划轨迹、自主行走与避障，并具备调度物联设备的综合服务能力。

七、自然场景汉字的自动识别

清华大学-腾讯联合实验室

在自然场景照片上，文字会出现遮挡、透视变换、阴影、字体不一致等复杂情况，在此情况下识别汉字要比在扫描文档上识别困难得多。

清华-腾讯联合实验室可视媒体智能处理团队利用字符级别标注的特点，将物体检测和识别的神经网络（包括AlexNet、OverFeat、Google Inception、ResNet和YOLOv2等模型）应用到街景汉字检测和识别中，从而实现室外街景汉字的高准确度检测和识别。这项技术可以用于街景中POI信息的自动提取，丰富地图中POI信息的细节。

为了给神经网络训练提供大量汉字数据集，清华-腾讯联合实验室在腾讯街景照片中挑选了32285张照片，并标注了超过100万个汉字及其属性信息，共创了迄今为止最大的真实场景汉字数据集。

此前，腾讯董事会主席兼首席执行官马化腾曾表示，AI、云计算、大数据是腾讯关注的重点，将持续与学术界、产业界开展各种合作。成立于2010年的清华-腾讯联合实验室，就是腾讯在产学研结合新模式上的探索：腾讯携手清华大学共同承担国家重大科研项目，探索原创性的技术成果，培养和吸收一流的高素质人才。在深入合作的AI、社交网络、大数据、安全、互联网+等领域，联合实验室取得了丰硕成果，共同研发的几十项科研成果现已在腾讯业务上得到实际应用。未来双方将在更广的领域、更深的层面开展更紧密的合作，为腾讯的业务发展、为清华大学的学科建设做出更多贡献。