我要投稿

（一）AI产品分析：腾讯会议中的人工智能

发布日期：2024-03-12 09:10:29 浏览次数： 2952 作者： AI产品经理研习与实践

—

腾讯会议产品功能概览

腾讯会议1.0发布于疫情爆发前的2019年12月，相比于现在大家所看到的版本，彼时其功能还比较基础和单一，使用体验也不是那么好。现如今，经过不计其数的版本迭代，早已和当初不可同日而语。它的用户数也已经突破4亿，可谓“国民级”的视频会议应用了。

腾讯会议全景产品图如下所示：

2023年9月份，在腾讯全球数字生态大会腾讯会议专场上，腾讯会议官宣已接入腾讯混元大模型、并发布AI小助手（当然，在没有发布AI小助手之前，不代表腾讯会议中就没有使用到AI技术、不需要AI产品经理）。

结合最新版本，我们可以将腾讯会议的功能需求大致划分为以下4大类别：

（1）基础功能，包括但不限于：

账号与安全管理：提供注册、登录、密码、切换、退出、注销等功能
音频采集：提供高清晰度音频采集，支持噪声抑制和回声消除，确保通话清晰。
视频采集：支持高质量视频采集，适应不同网络环境保证视频清晰稳定。
会议录制：允许用户录制会议内容，包括音频、视频和共享的屏幕，支持云存储和本地存储。
高稳定并发支持：确保在大规模并发参与时的稳定性和流畅性。
多种方式入会支持：支持通过小程序、APP、Web/PC、电话等多种方式参加会议，提高可访问性和便捷性。

（2）协作功能，例如：

屏幕共享：允许用户共享整个屏幕或特定应用窗口，便于展示演示文稿或其他工作材料。
文档共享与协作：实时共享和编辑文档，支持多人协作，改进团队协同工作效率。
及时聊天与互动：提供会议中的即时消息发送功能，包括文本、表情和文件分享，支持私聊和群聊。

（3）管理功能，包括但不限于：

参会者管理：主持人可以管理参会者，如邀请、移除、静音等操作。
会议安排和日程同步：支持预约会议、设置日程提醒，并与日历应用同步。
权限控制：设置不同级别的会议权限，如只读、互动权限等。

（4）AI功能，例如：

实时语音转写：使用AI技术进行实时语音转写，提供文字记录。
智能纪要生成：自动总结会议要点，生成会议纪要。
人脸识别与背景虚化：利用AI进行人脸识别，提供背景虚化和替换功能，确保会议的专业性和隐私性。

我们主要关注其中的AI功能，因此进一步整理如下：

（1）视频处理功能

高清摄像头画质：开启高清摄像头画质后，腾讯会议将为您提供最高1080P品质的高清视频画面，让您在会议中的形象更为清晰生动。

视频降噪：视频降噪技术减少画面杂讯，提高视频清晰度。

暗场增强：利用AI算法优化视频质量，即使在低光环境下也能保证画面清晰明亮。

眼神接触：AI调整发言者在屏幕上的眼神方向，创造出面对面交流的视觉效果。

（2）音频处理功能

背景音降噪：高级的背景音降噪技术确保会议中的语音清晰，不受环境噪音影响。

音乐模式和专业音频：音乐模式提高音频采集质量，适合需要传输音乐的场景；支持启用数字自动增益控制（AGC）和回声消除功能，提升音频清晰度。

（3）字幕和转写功能

实时字幕与翻译：提供实时字幕功能，支持中英双语实时翻译，拓宽会议的可及性。

转写优化：生成会议的原文转写和智能优化版转写，后者通过AI清理转写文本中的非语言表达。

自定义热词：用户可以设置自定义热词以优化转写精度，确保专业术语和公司名称正确无误。

（4）智能录制和纪要功能

总结与纪要：自动分析会议内容，生成简洁的会议总结和详细纪要。

章节与发言人标注：将会议内容划分为不同章节，自动标注不同发言人，支持在多人使用同一设备时区分各个发言者。

话题提取：识别会议中的主要话题，为用户提供针对性的内容摘要。

（5）虚拟背景和美颜功能

虚拟背景：允许用户替换和定制虚拟背景，适应不同的会议环境需求。

美颜与滤镜：美颜功能优化参会者的视觉效果，滤镜提供多样化视觉风格。

头饰与边框：提供多种头饰和边框选项，增添会议趣味性和个性化。

接下来让我们来逐一拆解。我个人最感兴趣的是与大语言模型结合程度更高的AI助手功能，即字幕和转写、智能录制，因此将优先探讨这2个模块。

—

字幕和转写

1.实时字幕与翻译

在直播和视频会议中，AI实时字幕可以提供实时的文字转化，方便观众和参会人员阅读，避免因为听力问题而导致信息的丢失。而在国际化的工作环境中，不同国家的参与者可能需要用不同的语言沟通，实时字幕和中英互译功能可以帮助跨越语言障碍，提高沟通效率和理解度。

实现这个功能，主要需要2个方面的AI技术：

（1）语音识别 (Automatic Speech Recognition, ASR)：使用深度学习模型（如循环神经网络RNN或长短期记忆网络LSTM，这些模型被训练以识别和转录人类语音）将口语转换为书面文字。腾讯会议官方表示，实时字幕功能是基于ASR oteam开源协同共建的。

作为腾讯开源协同小组，腾讯ASR和OCR Oteam通过对内部优势技术的整合和开源，构造了贴合各类业界场景的完整、先进、鲁棒的模型库和算法框架

（2）自然语言处理（NLP）：对语音识别后的文本做进一步的处理和理解，包括进行语义分析和上下文理解，从而确保转录文字在语义上准确和连贯。这方面的基础我们在《自然语言处理》一章中有所提及。

我们可以通过下面这张示意图来大概理解“语音采集-语音识别-自然语言处理-生成实时字幕”的过程。如果开启了中英双语翻译，则同时还需要通过NLP或机器翻译技术实现多语言之间的转换。

由于参会人使用了不同的输入设备（麦克风），采集/录制的时候就可以分成不同的音轨，加上对登录用户的身份识别，就能够按发言人+字幕实时显示了。

此外，我们作为产品经理还应该考虑为用户提供清晰、可读的字幕显示，例如对于字幕的字体大小、颜色和背景，以及在屏幕上的位置，都应考虑易读性和不干扰视频内容，并允许用户根据需要调整字幕显示的偏好设置。

2.转写与优化

用户故事：李女士是一名项目经理，负责管理一个分布在全球的多语言团队。她在组织国际会议时面临着沟通障碍，特别是在处理包含多种语言和方言的会议内容时。她需要一种工具，能够实时准确地将会议内容转写成文字，并对其进行智能优化，以便所有团队成员都能理解和参与讨论。

在实现实时字幕之前，腾讯会议就已经实现了云录制转写。相比起来，实时字幕需要确保字幕的生成与会议进程同步，技术要求是更高的。

腾讯会议的转写功能具有以下关键特性：

语音转文本：使用ASR技术，识别会议中不同发言者的声音，并将其口语转换为书面文字。
关键字搜索：结合文本搜索算法和云存储技术，支持在转写文本中搜索特定关键字，提供便捷的内容检索。
二次编辑：允许会议创建者编辑转写文本，以转写有误或想要调整的内容进行更正。
智能优化：结合腾讯混元大模型（或者文本分割、语义理解和语境分析等NLP技术），在原始转写的基础上进行智能分段、语气词优化，提升内容的书面化和准确性。

用户界面需求：

实时转写展示：清晰显示实时转写的文字，允许用户跟踪会议进展。
编辑功能：提供易于使用的编辑工具，允许用户修改转写文本。
搜索功能：集成搜索栏，用户可以快速定位特定内容。

不过从我个人体验的实际效果来看，智能优化版也并没有比原始版明显好的地方：

3.自定义热词

用户故事：张先生是一家跨国公司的技术主管，他经常组织技术讨论和产品发布会议。在这些会议中，经常使用到公司特有的术语和产品名称，这些词汇往往被标准的语音识别系统误识别。张先生需要一种方式来确保这些专业术语和公司名称在会议转写时能够被准确识别和展示，避免误解和混淆。

因此，我们就可以考虑设计一个名为“自定义热词”的功能：它允许用户添加特定的专业术语、产品名称或其他重要词汇到转写系统。通过使用这些自定义热词，系统在进行语音到文本的会议转写时，能够更准确地识别和转写这些专有名词。

在技术实现上，主要涉及：

自定义词库集成：在ASR系统中集成一个可以由用户自定义的词库，使得系统在转写时优先考虑这些词汇。
动态词库更新：允许用户随时更新词库，确保转写系统能够适应不断变化的术语和名称。
NLP优化：使用自然语言处理技术来理解和处理这些热词在上下文中的使用，提高整体转写质量

例如就笔者目前公司业务里用到的自定义热词就可以是：美养师（如前面的截图所示被转写成“每养师”了）、调理师等。

---未完待续---

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业