微信扫码
与创始人交个朋友
我要投稿
OPPO 是全球领先的智能终端制造商和移动互联网服务提供商,业务遍及50多个国家和地区,通过40多万个销售网点及2500个服务中心,与全球用户共享科技之美。作为一家软、硬、服一体化的科技公司,OPPO 不断优化以 ColorOS 为核心的软件平台,为全球4.4亿 ColorOS 月活用户打造更人性化、更智能的移动操作系统。OPPO 通过软件商店、云服务、智能助手的不断升级,为用户提供更快捷、更智能和更互联的增值服务。
2019年12月,OPPO 入选2019中国品牌强国盛典榜样100品牌,2020年1月4日,获得2020《财经》长青奖“可持续发展创新奖”。2021年4月,OPPO 全球专利申请量超过6.1万件,全球授权数量超过2.6万件。2023年10月,中国科学院科技战略咨询研究院发布《中国科创典型调查报告》。OPPO 折叠屏手机与中国高铁复兴号、北斗卫星导航系统、中国商飞C919大飞机等专利密集型的科创产品一起入选“中国科创新名片”。
2024年2月,OPPO 为超千万用户带来了百多项 AI 手机功能,全新的小布助手以及 AI 消除和 AI 通话摘要等功能,得到了用户的广泛好评,让 AI 手机实现了从尝鲜到常用的跨越。
随着移动互联网技术的飞速发展,手机已经成为人们日常生活中不可或缺的用品,除通信、社交和娱乐功能外,手机也日渐成为移动办公必不可少的工具。随着人工智能浪潮的兴起,用户对手机的 AI 能力也有了更高的期许。作为全球领先的智能终端制造商和移动互联网服务提供商,OPPO 致力与合作伙伴一起,将先进的人工智能技术与手机相结合,打造出新一代 AI 手机,满足用户日益增长的体验需求。
行业领先的 AI 服务提供商 OPPO 与微软共同合作,连续为用户推出了两项大受欢迎的功能:
? OPPO 小布连麦功能采用微软全新 TTS 技术实现更加接近真人的声音,打开即可对话连线,让用户跟小布助手的语音互动更加具有真实感和沉浸感。
? Phone Link 功能能够让移动设备无线连接到 PC 端,无需第三方工具就能实现手机端和 PC 端的无缝连接,将 PC 端强大的能力扩展、共享给手机,为用户提供更加便捷、智能和灵活的跨设备体验。
而在海外市场推出的新产品上,OPPO 与微软在 ASR 和 TTS 技术上合作,为 OPPO AI 手机的两项创新功能提供更加出色的用户体验:
? AI 录音摘要:快速将录音转录为文本并总结为摘要,让用户能迅速了解录音内容,并随时分享。
? AI 文章朗读:让手机以自然声音朗读文本,解放用户的手和眼睛,轻松实现与手机的交互。
要实现这两项功能,OPPO 面临着一系列技术上的挑战,包括转录的准确性、延迟、多语言支持以及安全与合规。
OPPO 首先解决的难题是确保转录的准确性,这是至关重要的,无论是日常使用还是移动办公,用户不仅要求可以将语音准确地转为文本,还期望得到简单、清晰且准确地表达原文精髓的摘要;其次是如何做到延迟短、响应快速,因为没有用户能忍受长时间的等待;其三是文本朗读的声音能更接近人的声音,传统的计算机合成语音单调、刻板,用户更希望听到符合人类语言特征、自然的、类似人声的语音。此外,隐私保护以及安全合规也是 OPPO 必须应对的另一个重要挑战,新一代的 AI 手机既要有细致的功能满足用户的全面需求,又要保护好最终用户的个人隐私。
为了应对这些挑战,OPPO 希望选择一个在技术上具有雄厚实力和技术资源且具有前瞻性发展眼光和魄力的 AI 合作伙伴,展开稳定的长期合作,共同将最新的 AI 技术应用于智能手机,为用户提供创新服务。
为了实现语音到文本的转录功能,OPPO 采用了 Azure AI Speech 国际服务,该服务使开发人员能够快速准确地将多种语言和变体的音频转录为文本,它还支持定制模型,以增强特定领域术语的准确性。微软提供的 REST API 服务还可以使开发人员以 40XRTF 的速度创建准确的音频转录,这意味着一个10分钟的音频文件可以在15秒内完成转录,能充分满足 OPPO 对音频转录时限的要求。同时,Azure AI 语音服务提供的语种识别功能(Language Identification(LID))可以迅速且精准地识别用户所用语言,这一功能确保了 AI 手机可以准确地转录和叙述各种语言的内容,使开发人员能够简化与多种语言音频交互的用户体验。图1是 OPPO 利用 Azure AI Speech 服务实现语音转录的流程图。
图一:OPPO 手机语音转录流程图
为了实现文本朗读功能,OPPO 采用了 Azure AI 文本到语音的 TTS 服务,该服务采用了深度神经网络技术,使计算机合成的声音可以高度模拟人声。它提供了类似人声的自然韵律和清晰的发音,使朗读的语音几乎与人声相同,大大减轻了人们与人工智能系统交互时的听力疲劳。此外,Azure AI 文本到语音功能提供多种声音和语言,这使得多语言支持变得很容易,只需通过预先构建的多语言神经语音系统,用户无需动手、用眼,就能轻松阅读多种语言的内容。图2是 OPPO 手机利用 Azure AI 文本到语音 TTS 服务实现文本转语音的流程图。
图二:文本转语音流程图
得益于 Azure AI 语音服务的易用性和微软技术团队的优异支持,OPPO 的项目启动非常迅速,在微软技术团队的帮助下,OPPO 仅用两周时间就完成了场景验证,并正式开始项目实施。
在项目实施过程中,为了提高对多种语言声音识别的准确率,微软技术团队与 OPPO 开发团队一起,通过优化手段截取多个高质量音频片段进行识别,从而大幅度提高了识别准确率。
利用 Azure AI 语音到文本服务和 Azure AI 文本到语音服务,OPPO 实现了为 AI 手机的两项创新功能提供更加出色用户体验的目标。
OPPO AI 手机的 AI 录音摘要实现了超快的智能转录,实时因子(RTF)低于 0.3,这意味着手机用户能够几乎实时地将来自通话、会议、讲座、待办事项等各种来源的语音转录为文本,并进一步将其归纳出摘要信息,便于及时掌握和分享信息,这将极大地提升利用手机进行移动办公的效率。此外,Azure AI 语音服务行业领先的单词校正率(WCR)使 OPPO 的 AI 手机不仅转录速度快,而且非常准确,减少了误解并加强了沟通,这一点在会议、访谈和学术讲座等场景下特别有帮助。
OPPO AI 手机的 AI 文章朗读使用户可以无需动手、用眼,就可以听各种语言的文本,不仅朗读的声音更类似人声,而且用户还能选择口音、调整朗读速度等,无论用户是在驾车、锻炼、烹饪、放松休闲,都可以“听”手机上的文章。
此外,与微软的合作也充分保证了 OPPO AI 手机的合规性,因为 Azure AI 全球语音服务遵守严格的安全协议和合规标准,确保用户的数据受到保护。在项目实施中,OPPO 也采取了一系列措施来保护用户隐私,这些措施包括音频文件采用匿名方式,不包含可识别的个人信息;数据传输链路加密并且音频文件处理完毕就地删除;各个国家(地区)的音频文件在本国(地区)处理。这种对安全和隐私的承诺建立了用户之间的信任,使用户可以放心地使用 OPPO 的 AI 手机。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
台前调度是未来XR、AI工作流的重要交互方式
2024-12-21
NVIDIA全栈AI战略:从GPU到AI工作流的演进
2024-12-21
深度|AI 的下个十年,藏不住了!
2024-12-20
Nvidia 的 CUDA 护城河到底有多深?
2024-12-20
9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动
2024-12-20
火山引擎与FoloToy,乐鑫等企业联合发布 AI + 硬件智跃计划
2024-12-18
NVIDIA 推出高性价比的生成式 AI 超级计算机
2024-12-18
英伟达新品“掌心AI超算”,¥1800跑8B多模态模型,算力暴增70%价格腰斩
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2024-07-01
2024-06-24
2024-06-08
2024-06-05
2024-06-21
2024-07-11
2024-12-20
2024-12-15
2024-11-12
2024-11-11
2024-10-29
2024-10-22
2024-10-18
2024-10-16