11月8日,以“MORE,近你所想”为主题的2022 vivo开发者大会正式开幕,在次日举办的人工智能专场上,vivo AI团队通过计算摄影、文档图像处理、语音技术、语义技术、机器翻译、计算加速平台、开放平台AI专区等多方面具体案例,介绍了vivo近两年来在人工智能领域所做的探索和实践。
在人工智能领域,vivo从用户需求出发,不断创新,致力于实现“1001个便利”。生活中,当你沉醉于一首动听的音乐却苦于不知道歌曲名称时,AI可以帮你听歌识曲;当你看英文视频却发现听不懂时,AI可以给你提供字幕翻译;当你想拍出好的照片却看不懂相机的一堆参数时,AI计算摄影可以自动帮你把场景色彩还原的更准确,把食物的色泽拍得更鲜艳;工作中,当你需要扫描文件并进行修改发送时,AI可以帮你去除灯光下的手指阴影和屏幕上的摩尔纹,并可以将拍下来的图片转化成可编辑的电子文档,让你信息处理更高效;我们希望持续通过AI能力为用户带来无处不在的惊喜和激动人心的体验。
vivo AI算法中心高级总监 陈晓昕演讲-1001个便利
此外在人文关怀方面,经过不懈的研发创新,实现了手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。目前的算法已经可以识别1200个手语词汇,准确率在80%以上,已经达到汉语四级的理解水平,同时在手语表达方面,目前覆盖了国家手语通用词典超过8000个词汇。AI手语虚拟人既能流利的通过手语进行表达,还能快速识别手语看懂手语,帮助听障人士更便捷地获取信息,更高效地与人沟通。
AI计算摄影,为用户带来自然色彩极致还原的惊喜
在2020年底,vivo就与蔡司开启了全球影像战略合作。今年,vivo联合蔡司团队进一步探讨和制定忠于人眼所见的自然色彩理念。 在今年发布的X80系列上,vivo推出了全新升级的蔡司自然色彩2.0,可以更准确的还原真实自然色彩,提升大面积深色和浅色等困难场景下曝光和白平衡准确率。蔡司自然色彩2.0底层使用了最新的两项AI计算摄影技术突破:智能白加黑减和智能白平衡技术。
vivo AI视觉应用组总监 冉龙金演讲——AI计算摄影
通过智能白加黑减技术,vivo在行业内首次解决了大面积深色和浅色场景下曝光不准确的问题。在拍服饰、宠物、雪景等困难场景下,曝光准确率相对于原有方法,提升了16%。
而智能白平衡技术则主要解决拍美食、拍花、拍宠物等场景下偏色的问题。vivo根据亚洲人色彩恒常性的视觉特点,以及拍摄场景的特点构建了丰富的色彩数据集。再通过人工智能模型实际学习人眼看到的色彩,从而获得更准确的白平衡参数。相对于原有方法,在拍美食、拍花、拍宠物等场景下,色彩精准度提升13%。
AI文档图像处理与识别,让办公学习更加高效
为了帮助用户更清晰的记录好文档,同时更快捷的提取文档内容,vivo基于AI文档图像处理与识别技术,打造了包括文档扫描、证件扫描、文字提取、表格识别、口算批改、去手写等一些列解决方案,并将陆续在相机、相册、智慧视觉、琥珀扫描等产品中进行落地,为用户在办公和学习等相关场景提供一个个小便利。
vivo AI视觉理解组总监 文亚飞演讲——琥珀扫描
来自vivo AI 团队的文亚飞在演讲中表示:“vivo的AI文档图像处理与识别解决方案源自两个核心算法引擎——文档图像处理引擎和OCR文字识别引擎。”其中文档图像处理引擎可以对文档主体进行精准的自动裁剪和矫正,同时通过超清修复算法对文档的阴影、折痕、摩尔纹等进行自动去除,一键将纸质文档还原成高清文档图片。而最新的OCR文字识别引擎则在视觉模型的基础上叠加语言模型融合识别,同时通过一系列模型压缩和计算加速手段,不仅让文字识别更快更准,同时实现算法运行在本地,更好的保障了用户的数据隐私安全。
AI语音技术,架起情感交流的桥梁
除了在视觉方面为用户打造的便利,vivo还通过AI语音技术,进一步帮助用户解放双手和双眼。
vivo的AI语音技术体现在两方面,首先是语音合成技术。基于自研的个性化语音合成系统,vivo持续地研发出了丰富多元的合成声音,不但提供了清新、甜美、稳重等多种不同的音色,同时还支持对话、新闻、小说等不同场景下的朗读风格,实现了音色、风格以及情感三种元素的自由组合。经历多年技术的沉淀,vivo发表了顶会论文8篇,获取两项国际赛事第一名,同时Jovi语音助手和屏幕朗读的语音合成技术还获得了通信院和泰尔实验室认证。
vivo AI语音中心总监 陈彬彬演讲——AI语音技术
其次是语音识别技术,经过多年的发展和迭代,vivo语音识别技术目前效果得到了比较大的进步。来自vivo AI语音中心的陈彬彬说:“vivo通过端到端建模、AI降噪以及场景化语言模型等方式,克服了口音、噪音和专业领域等导致的识别错误,极大提升了语音识别的准确性。”
机器翻译,让沟通没有障碍
面对日益丰富的国际交流和文化碰撞,vivo通过科技创新助力用户突破语言障碍,让用户生活更加高效便利。AI双语字幕让爱看电影爱追剧的朋友随心所欲地看生肉,还支持中外双语字幕对照展示,学生群体上网课也不用愁。另外,vivo手机内置的系统级应用翻译机支持二十多个主流语种的流畅互译,同时vivo还推出了Jovi输入法快捷翻译、识屏翻译、拍照翻译等多项功能,帮助用户克服语言沟通的障碍。
vivo 针对翻译的重点人群、高频场景、便捷入口均设计了产品方案,助力高效解决翻译需求。” 来自vivo机器翻译团队的李方圆在演讲中阐述。
vivo AI机器翻译组高级经理 李方圆演讲
vivo在针对文本、图片、声音三种内容形态均研发了算法能力。在图片翻译技术上,攻克落合并和图片文字涂抹两大技术难点,提升了图片翻译的质量和排版的美观度。在语音翻译技术方面,vivo聚焦优化流式场景下的语音翻译效果,持续优化模型对ASR噪音的鲁棒性,在翻译质量、稳定性、翻译延时三者之间取得平衡。
经历2年多的沉淀,vivo的机器翻译团队在今年的全国机器翻译大赛上斩获汉英翻译、中日英多语言翻译2项冠军,并且还在英汉、藏汉、中泰、泰中4个赛道上获得亚军。
Jovi输入法Pro,最大限度保护用户隐私
面对由输入法引发的用户隐私泄露问题,vivo首次推出了完全自研的Jovi输入法Pro,以实际行动筑牢数据安全、隐私保护与守法合规的企业红线。
vivo AI算法中心高级总监 陈晓昕演讲——Jovi输入法Pro
Jovi输入法Pro提供了本地模式,输入法可以实现完全本地运行,无需用户进行联网授权,保证了用户的个人信息和数据只保存在本地。为了实现Jovi输入法的本地模式,vivo对拼音、语音、手写三大输入法内核进行了全面优化升级,通过知识蒸馏、模型压缩、计算加速等手段实现了算法在多个维度的均衡,提供安全、高效的输入体验。
Jovi语音助手,化身便捷、温暖的“贴心小管家”
作为vivo手机的智能生活助理,Jovi语音助手受到了越来越多的用户喜爱。经过四年多的优化提升,Jovi语音助手在工信部组织的第一期人工智能产业创新重点任务揭榜工作中,在“智能语音交互系统”领域拔得头筹,荣誉揭榜。“在手机端日活已经超过1000万,每个月小v会和用户产生18亿次对话,回答2亿个问题。” 杜乃乔在演讲中说。
vivo AI应用中心高级总监 杜乃乔演讲——Jovi语音助手
自推出以来,vivo一直围绕着便利的技能、丰富的知识、贴心的闲聊三个方向来提升Jovi语音助手。据悉,目前Jovi语音助手已经支持超过100个场景垂类,超过600种用户请求意图,很好地满足用户在快捷操作、信息获取、情感陪伴方面的需求。
VCAP异构计算加速,打造极致AI应用体验
基于应用场景,算法,硬件的发展,AI业务端侧化面临多元化的挑战,为了应对AI业务多元化挑战,vivo建设了VCAP异构计算加速平台,为开发者提供全链路AI算法端侧化解决方案。VCAP持续追求全能力、跨平台、高性能的目标,全面支持视觉、语音、自然语言处理、推荐各领域业务落地。目前,VCAP异构计算加速平台沉淀7种XPU器件加速能力,支持超过60种算法、80种算子。基于VCAP平台能力,vivo支持典型影像、视频、语音场景业务落地,为用户打造更为极致的AI应用体验。
“我们希望借助于VCAP开放能力,能携手更多行业开发者为用户打造更多的AI应用产品!” 来自vivo AI团队的鲁晶说道。
vivo AI系统平台组高级经理 鲁晶演讲
携手开发者,为用户打造1001个便利
今年vivo开发平台 AI专区在算法、数据、算力强大的技术底座上,开放了云端两个方向的能力,包含Jovi服务平台、AI算法平台、内容理解平台、Jovikit、VCAP计算加速平台。
以Jovi服务平台为例,vivo通过AI赋能、服务找人的形式进行智能精准的投放,投放后,会有亿级流量场景进行分发。对开发者来说,用更低的流量成本就可以获得更高的曝光机会和更优的转化质量。在用户层面,用户获取服务成本低,免安装,有更多入口直达多样服务。
vivo AI平台产品组高级经理 刘诗韵演讲
进入开发者平台-AI专区
https://developers.vivo.com/AI 。注册成为开发者后,只需简单几个步骤就能完成接入。通过这些开放的能力,携手开发者,为用户在多种场景方方面面打造1001便利。
关注特殊用户群体,手机行业首发手语识别虚拟人,AI让科技更有温度
人文之悦一直是 vivo的品牌主张,在关注普通用户的同时,vivo对于特殊用户群体的关怀也未曾缺位。据介绍,在今年召开的第四届科技无障碍发展大会上,vivo荣获了“2022可及信息无障碍优秀案例”,成为唯一的获奖手机品牌。
vivo AI算法中心高级总监 陈晓昕演讲——关注特殊用户群体
通过声音识别、vivo听说、无障碍通话等一系列AI无障碍功能创新以及无障碍设备捐赠等方式,vivo力求为听障人群搭建起无障碍沟通的桥梁。同时,vivo整合领先的AI技术能力,实现手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。而面对视障人士,vivo也将上线vivo看见和vivo读谱两大视觉辅助功能,帮助视障用户更好地融入社会。
2017年,vivo开始组建AI全球研究院,旨在帮助所有消费者享受科技带来的美好生活。截至目前,在vivo手机的100多个系统模块中,目前已经有超过60%的模块中搭载了AI能力,在用户看得见和看不见的地方发挥着作用,提供便利,创造惊喜。
vivo希望依托OriginOS能力,以用户使用手机的重要场景为载体,通过AI技术与场景的深度结合,致力于打造1001个便利,为用户提供无处不在的惊喜与方便。