2022年6月23日,深圳——年度计算机视觉顶级会议CVPR(Conference on Computer Vision and Pattern Recognition国际计算机视觉与模式识别会议)在新奥尔良落下帷幕。今年,OPPO有七篇论文成功入选,跻身一流科技厂商之列。同时在广受关注的挑战赛上,OPPO也取得了三项第一、一项第二、四项第三的良好成绩。
随着深度学习逐步成熟化规模化,人工智能技术从“感知智能”向“认知智能”迈进。AI除了“看到”或“听到”,开始初步逐步具备像人类一样的思考能力。多模态融合、3D视觉智能技术、自动机器学习等正在成为人工智能领域的关键研-究热点。OPPO在上述领域都均实现论文收录,在AI关键学术领域取得创新突破。
OPPO 智能感知首席科学家郭彦东表示:“在2012年,为了图像识别任务而设计的深度神经网络重新给人工智能的研究与应用注入了能量。从此,人工智能(AI)技术迎来了飞速发展的10年。在OPPO,我们持续推动人工智能完成像人一样复杂的感知与认知行为。比如,从无标签的海量数据中持续学习并迁移到下游具体任务,从几个有限视角中完整的重建3D信息;更高级别的认知能力,比如对美的理解与创作;以及具有自主行为能力的“实体AI”(embodied AI),比如自动驾驶场景中的行为预测等。很高兴OPPO继2020年首次亮相后,在短短的3年内就实现了7篇主会论文入选的好成绩。未来,我们希望继续向更基础、更前沿的AI领域探索,推动AI的商用落地,让创新科技更好地服务于人。”
7篇论文获得收录,OPPO正在助力AI认知水平升级
本次CVPR2022上,OPPO共有7篇CVPR入选论文,涵盖多模态信息交互、三维人体重建、个性化图像美学评价、知识蒸馏等多个研究领域。
不同模态数据的特性各不相同,像文字、语言这样的信息概括性极强,而图像往往包含大量细节。在多模态数据下,能够在模态间建立起有效交互对于AI来说是一件十分有挑战性的事情。OPPO研究人员基于CLIP模型提出了全新CRIS框架,使得AI能够更加细粒度地理解图像与文本两种模态的数据。即使输入包含多重信息的文本描述,该框架也能够准确聚焦到对应的图像区域,显示出强大的细粒度跨模态匹配能力。
当前,人类的智能和人工智能最重要的区别之一在于对于多模态信息的识别和理解。对于人类来说,我们往往可以同时理解文字和图像,并将其有效关联。但AI更多停留在识别阶段,很难将不同模态的信息精准对应。本次OPPO提出的创新方法可以帮助人工智能在多模态理解上更进一步。未来,随着相关技术的不断发展,人工智能可以真的可以像科幻小说中描述的那样,通过语言、听觉、视觉等多重信息去认知真实世界,真正地成为人们最好的“帮手”。
同样,在近期热门的三维人体重建领域,OPPO研究院通过改进NeRF创新的动态角色建模方法,在业界首次实现了自动为宽松着装人体创建数字分身的工作。该建模方法仅通过分析摄像头所拍摄的RGB视频,就可以1:1精准还原人物动态细节,甚至包括衣服细小logo或纹理细节。衣服的建模还原一直是业界挑战较大的领域之一,因为人体姿态发生变化的同时衣服物料的形变非常复杂,从而导致AI难以解算像“裙摆”这样的部位形变。此举可有效降低三维人体重建的门槛,为在线虚拟试装购物、AI健身乃至VR/AR虚拟世界的真正落地提供良好的技术基础。
随着AI图像识别能力的逐渐成熟,如何让AI具备图像审美能力成为新的难题。AI的审美能力往往强关联训练所使用的数据和标注者的偏好,而人的审美往往是千人千面的,采用基于大数据的美学评价来为不同用户服务,这可能会引发人们对于“审美歧视”的讨论,造成不好的用户体验。因此,通过更精细化的数据和模型,准确捕捉不同用户的审美差异的个性化美学评价应运而生。
对此,OPPO研究院联合西安电子科技大学李雷达教授,开创性地提出了带条件的PIAA算法(Conditional Personalized Image Aesthetics Assessment),首次从“用户主观偏好与图像美学相互作用,如何产生个性化品味”角度出发对AI模型进行优化。该算法可以基于不同用户画像信息实现个性化的审美评价,可以为用户在相册、相机、互联网内容推荐等场景中打造个性化体验,具有广阔的应用前景。
随该算法一并提出的带有丰富属性标注的个性化美学评价数据集也已宣布开源,为业界在个性化美学评价领域的研究提供了有价值的研究数据,目前该数据集已收到多家研究机构及高校的关注和问询。
此外,OPPO提出的多视图三维语义平面重建技术能够准确解析场景的三维平面结构,并预测地面、桌面、墙面等平面的语义标注,其效果明显优于当前主流单视图重建架构。而联合清华大学提出的INS-Conv (INcremental Sparse Convolution),能达到更快及更准确的在线3D点云语义及实例分割推断,该技术可以有效降低环境识别对于终端算力的要求,为全自动驾驶、虚拟现实这样前沿技术的落地增加了可能。
斩获NAS挑战赛亚军 OPPO创新模型助力AI“轻量化”
在同期举办的挑战赛中,OPPO也表现出色,在八大赛项中斩获佳绩。包括目前行业关注的神经网络架构搜索技术(NAS)赛道、足球行为检测(SoccerNet Action Spotting)赛道、足球回放定位(SoccerNet Replay Grounding)赛道、时序动作定位(ActivityNet temporal localization)赛道、大尺度视频目标分割挑战赛(The 4th Large-scale Video Object Segmentation Challenge)、ACDC挑战赛(the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions)和运动预测挑战赛(WAD Argoverse2 Motion Forecasting)。
从手机摄影到无人驾驶,深度学习模型走进越来越多行业。但深度学习非常依赖大数据和大算力,学习成本高,这也给前沿AI技术的商用落地带来了挑战。神经网络架构搜索技术(NAS)可自动发掘神经网络的最优架构,降低对人工经验和背景知识的依赖,让AI也可以实现“自主学习”。在比赛中,OPPO研究人员通过优化训练超网过程中的模型参数遗忘及不公平的梯度下降问题,针对“继承”超网参数的45000个子网络,有效地提高了子网络在性能及性能排序上的一致性,最终取得了第二名的好成绩。
NAS技术的发展使得研究人员只需训练一个大的超网络,然后通过继承超网参数方式低成本构建预测器,实现网络架构自我学习,从而高效地获得优于专家设计的深度学习模型。该技术可适用于当前大部分人工智能算法,可以帮助AI技术在移动端设备上的应用,让用户体验到AI技术快速落地带来的好处。
值得一提的是,继去年OPPO在足球行为分析(SoccerNet)赛道中取得动作定位(Action Spotting)和回放定位(Replay Grounding)双项第二名后,今年OPPO再次取得回放定位(Replay Grounding)第一名和动作定位(Action Spotting)赛项第三。
在CVPR 2022上,OPPO还参加了三场高水准Workshop并发表演讲。其中,在SLAM 研讨会上,OPPO研究员邓凡就如何在智能手机、AR/VR设备上运行实时vSLAM进行分享和讨论。研究员李毅康则在移动人工智能研讨会中发表了演讲,提出无监督的视频-文本跨模态哈希方法——CLIP4Hashing,为移动设备上的跨模态搜索提供重要思路。李薇参加AICITY Workshop并提出了基于多视角的动作定位系统,用来识别驾驶员行车时的异常行为。
以创新推动商用,OPPO希望尽早让人们享受AI带来的便利
今年是OPPO参加CVPR的第三年,OPPO在收录论文数量及挑战赛成绩保持上升的同时,研究领域也从人脸识别等应用领域向更基础的技术方向转移。
快速突破的成果来源于OPPO在AI领域的不懈投入。自2015年起,OPPO在人工智能领域展开投入,成立相关研发团队,聚焦语言语义、计算机视觉等领域。2020年初,OPPO研究院正式成立智能感知与交互研究院,进一步深化OPPO对人工智能前沿科技的探索。目前,OPPO在AI领域的全球专利申请超过2650件,广泛覆盖计算机视觉、语音技术、自然语言处理、机器学习等领域。
在“微笑前行”品牌使命的指引下,OPPO也在和业界伙伴一道,不断推动人工智能(AI)技术从实验室真正走向生活。2021年12月,OPPO发布了首款自研影像专用NPU——马里亚纳X,具备强大算力、能效比和计算速度,能够让AI算法的运行速度达到空前水平,为用户解决手机长期难以解决的夜景视频画质问题。此外,基于强大的底层AI能力,OPPO也发布了包括CybeReal全时空间计算AR应用、OPPO Air Glass、Omoji等创新产品及功能,希望尽早创造更真实的数字新世界,为用户带来现实物理世界与虚拟数字世界的融合体验。
关于OPPO
OPPO于2008年推出第一款“笑脸手机”,由此开启探索和引领至美科技之旅。今天,OPPO 凭借以Find X 和Reno系列手机为核心的多智能终端产品,ColorOS操作系统,以及 OPPO Cloud、OPPO+等互联网服务,让全球消费者尽享至美科技。OPPO 业务遍及全球40多个国家和地区,拥有6大研究所和5大研发中心,并在伦敦设有全球设计中心。超过4万名OPPO员工共同致力于为人们创造美好生活。