AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI手机来了?
发布日期:2024-06-19 19:39:21 浏览次数: 1919 来源:Azure云科技


OPPO 是全球领先的智能终端制造商和移动互联网服务提供商,业务遍及50多个国家和地区,通过40多万个销售网点及2500个服务中心,与全球用户共享科技之美。作为一家软、硬、服一体化的科技公司,OPPO 不断优化以 ColorOS 为核心的软件平台,为全球4.4亿 ColorOS 月活用户打造更人性化、更智能的移动操作系统。OPPO 通过软件商店、云服务、智能助手的不断升级,为用户提供更快捷、更智能和更互联的增值服务。


2019年12月,OPPO 入选2019中国品牌强国盛典榜样100品牌,2020年1月4日,获得2020《财经》长青奖“可持续发展创新奖”。2021年4月,OPPO 全球专利申请量超过6.1万件,全球授权数量超过2.6万件。2023年10月,中国科学院科技战略咨询研究院发布《中国科创典型调查报告》。OPPO 折叠屏手机与中国高铁复兴号、北斗卫星导航系统、中国商飞C919大飞机等专利密集型的科创产品一起入选“中国科创新名片”。


2024年2月,OPPO 为超千万用户带来了百多项 AI 手机功能,全新的小布助手以及 AI 消除和 AI 通话摘要等功能,得到了用户的广泛好评,让 AI 手机实现了从尝鲜到常用的跨越。




随着移动互联网技术的飞速发展,手机已经成为人们日常生活中不可或缺的用品,除通信、社交和娱乐功能外,手机也日渐成为移动办公必不可少的工具。随着人工智能浪潮的兴起,用户对手机的 AI 能力也有了更高的期许。作为全球领先的智能终端制造商和移动互联网服务提供商,OPPO 致力与合作伙伴一起,将先进的人工智能技术与手机相结合,打造出新一代 AI 手机,满足用户日益增长的体验需求。



寻找合作伙伴 克服技术挑战


行业领先的 AI 服务提供商 OPPO 与微软共同合作,连续为用户推出了两项大受欢迎的功能:


◉ OPPO 小布连麦功能采用微软全新 TTS 技术实现更加接近真人的声音,打开即可对话连线,让用户跟小布助手的语音互动更加具有真实感和沉浸感。

Phone Link 功能能够让移动设备无线连接到 PC端,无需第三方工具就能实现手机端和 PC 端的无缝连接,将 PC 端强大的能力扩展、共享给手机,为用户提供更加便捷、智能和灵活的跨设备体验。


而在海外市场推出的新产品上,OPPO 与微软在ASR 和 TTS 技术上合作,为 OPPO AI 手机的两项创新功能提供更加出色的用户体验:


 AI 录音摘要:快速将录音转录为文本并总结为摘要,让用户能迅速了解录音内容,并随时分享;

◉ AI 文章朗读:让手机以自然声音朗读文本,解放用户的手和眼睛,轻松实现与手机的交互。


要实现这两项功能,OPPO 面临着一系列技术上的挑战,包括转录的准确性、延迟、多语言支持以及安全与合规。


OPPO 首先解决的难题是确保转录的准确性,这是至关重要的,无论是日常使用还是移动办公,用户不仅要求可以将语音准确地转为文本,还期望得到简单、清晰且准确地表达原文精髓的摘要;其次是如何做到延迟短、响应快速,因为没有用户能忍受长时间的等待;其三是文本朗读的声音能更接近人的声音,传统的计算机合成语音单调、刻板,用户更希望听到符合人类语言特征、自然的、类似人声的语音。此外,隐私保护以及安全合规也是 OPPO 必须应对的另一个重要挑战,新一代的 AI 手机既要有细致的功能满足用户的全面需求,又要保护好最终用户的个人隐私。


为了应对这些挑战,OPPO 希望选择一个在技术上具有雄厚实力和技术资源且具有前瞻性发展眼光和魄力的 AI 合作伙伴,展开稳定的长期合作,共同将最新的 AI 技术应用于智能手机,为用户提供创新服务。




为了实现语音到文本的转录功能,OPPO 采用了Azure AI Speech 国际服务,该服务使开发人员能够快速准确地将多种语言和变体的音频转录为文本,它还支持定制模型,以增强特定领域术语的准确性。微软提供的 REST API 服务还可以使开发人员以 40XRTF 的速度创建准确的音频转录,这意味着一个10分钟的音频文件可以在15秒内完成转录,能充分满足 OPPO 对音频转录时限的要求。同时,Azure AI 语音服务提供的语种识别功能 (Language Identification)可以迅速且精准地识别用户所用语言,这一功能确保了 AI 手机可以准确地转录和叙述各种语言的内容,使开发人员能够简化与多种语言音频交互的用户体验。下图是 OPPO 利用 Azure AI Speech 服务实现语音转录的流程图。



OPPO 手机语音转录流程图


为了实现文本朗读功能,OPPO 采用了 Azure AI 文本到语音的 TTS 服务,该服务采用了深度神经网络技术,使计算机合成的声音可以高度模拟人声。它提供了类似人声的自然韵律和清晰的发音,使朗读的语音几乎与人声相同,大大减轻了人们与人工智能系统交互时的听力疲劳。此外,Azure AI 文本到语音功能提供多种声音和语言,这使得多语言支持变得很容易,只需通过预先构建的多语言神经语音系统,用户无需动手、用眼,就能轻松阅读多种语言的内容。下图是OPPO 手机利用 Azure AI 文本到语音 TTS 服务实现文本转语音的流程图。




文本转语音流程图



得益于 Azure AI 语音服务的易用性和微软技术团队的优异支持,OPPO 的项目启动非常迅速,在微软技术团队的帮助下,OPPO 仅用两周时间就完成了场景验证,并正式开始项目实施。

在项目实施过程中,为了提高对多种语言声音识别的准确率,微软技术团队与 OPPO 开发团队一起,通过优化手段截取多个高质量音频片段进行识别,从而大幅度提高了识别准确率。




利用 Azure AI 语音到文本服务和 Azure AI 文本到语音服务,OPPO 实现了为 AI 手机的两项创新功能提供更加出色用户体验的目标。



实现超快智能转录


OPPO AI 手机的 AI 录音摘要实现了超快的智能转录,实时因子(RTF)低于 0.3,这意味着手机用户能够几乎实时地将来自通话、会议、讲座、待办事项等各种来源的语音转录为文本,并进一步将其归纳出摘要信息,便于及时掌握和分享信息,这将极大地提升利用手机进行移动办公的效率。此外,Azure AI 语音服务行业领先的单词校正率(WCR)使 OPPO 的 AI 手机不仅转录速度快,而且非常准确,减少了误解并加强了沟通,这一点在会议、访谈和学术讲座等场景下特别有帮助。



AI 朗读解放双手


与此同时,基于微软 Azure OpenAI 国际服务,完美世界游戏正在研发全AI驱动产品。所有的玩法和内容都是由 Azure OpenAI 制作,传统的代码和美术开发环节由 AI Prompt 工程师完成。游戏的剧情走向及结局完全由 AI 生成,呈现出开放式和非标准化的情节。玩家可以通过与 Azure OpenAI 的互动来探索,获得多样、独特和个性化的游戏体验。



保证合规性


此外,与微软的合作也充分保证了 OPPO AI 手机的合规性,因为 Azure AI 全球语音服务遵守严格的安全协议和合规标准,确保用户的数据受到保护。在项目实施中,OPPO 也采取了一系列措施来保护用户隐私,这些措施包括音频文件采用匿名方式,不包含可识别的个人信息;数据传输链路加密并且音频文件处理完毕就地删除;各个国家(地区)的音频文件在本国(地区)处理。这种对安全和隐私的承诺建立了用户之间的信任,使用户可以放心地使用 OPPO 的 AI 手机。





53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询