我要投稿

OpenAI Day9丨o1实时API全面开放，音频价格降低60%

发布日期：2024-12-18 05:09:44 浏览次数： 2434 作者：GeekSavvy

OpenAI 的直播发布会已经结束了8场，今晚是 Day9，昨天的发布会中就透露，今天的直播内容是面向开发者，果然，今晚的发布会就是属于开发者的 DevDay。

然后，悄悄上线了一个“gpt-4o-realtime-preview-2024-12-17”新模型，作为 Realtime API 测试版的一部分，它具有改进的语音质量、更可靠的输入（尤其是对于口述数字）和降低的成本。

概要总结：

o1 API 全面开放：为开发者提供期待已久的完整功能集，包括函数调用、结构化输出、开发者消息和图像理解。
Realtime API with WebRTC：实时 API 现在支持 WebRTC，这将简化实时语音体验的构建。WebRTC 提供了许多优势，例如更好的网络适应性、回声消除和更简单的代码实现。以及GPT-4o 音频价格降低 60%，同时，以之前音频速率的十分之一支持 GPT-4o mini。
新微调方法：OpenAI 推出了一种名为偏好微调的新微调方法，该方法使用直接偏好优化来创建更符合用户偏好的模型。

o1-2024-12-17 模型在多个基准测试中创下了新的最先进结果，提高了成本效益和性能。

OpenAI 官方表示，观察到 o1-2024-12-17 在函数调用和结构化输出测试中的表现明显优于 o1-preview。

01 有什么用

o1 API 中着重讲了 Function call，函数调用为开发者提供了一种新的交互方式，让我们可以更好地整合 AI 能力到自己的应用中，同时，可以根据具体需求定义函数，让 AI 在合适的时候调用这些函数，从而实现更复杂的业务逻辑。让用户能够更精准地与我们交互，从而获取更符合他们需求的信息。例如，在日常生活中，当人们想要查询特定信息、安排行程或获取个性化建议时，function call 能够让 AI 更好地理解用户意图，提供准确且有用的回复。

New realtime api with WebRTC 文档中，给我们提供了一套简单而强大的接口，使得我们能够轻松地在自己的应用中实现实时音视频通信功能，并结合 AI 的能力进行创新，为实时通信和协作带来了更多的扩展性。比如，在远程会议中，用户可以通过支持 WebRTC 的应用与他人进行高清、低延迟的视频通话，同时利用 AI 的实时辅助功能，如实时翻译、语音转文字等，打破语言和地域的限制，实现更加流畅和高效的沟通。

New Fine tuning 为开发者提供了更大的灵活性和定制化空间，我们可以根据自己的业务需求和数据特点，对 AI 模型进行微调，使其更好地适应特定场景，这有助于提高模型的准确性和性能，降低开发成本，增强我们的使用体验。通过微调，可以让 AI 模型可以更好地适应特定领域或任务，从而为用户提供更专业、更个性化的服务。比如在医疗健康领域，经过微调的模型可以为患者提供更准确的诊断建议；在教育领域，为学生提供更针对性的学习辅导。

02 o1模型在 API 中新增哪些功能

除了 o1 预览版中已有的功能外，O one 模型在 API 中还新增了以下功能：

函数调用：允许开发者将外部 API 和数据库连接到 O one 模型。
结构化输出：确保模型输出遵循开发者定义的 JSON 模式，这使得解析和使用模型输出更加容易。
开发者消息：为开发者提供了一种新的方法来指导模型的行为，作为指令层次结构工作的一部分。
推理努力：一个新的参数，允许开发者控制模型在思考问题上花费的时间，从而在简单问题上节省时间和金钱。
视觉输入：允许开发者将图像作为模型的输入，这为制造业和科学等领域的应用开辟了新的可能性。

03 Function Call 详细解析

1、功能概述

Function call 允许开发者在与 AI 模型交互时，定义并调用自定义函数。意味着 AI 不再仅仅局限于生成文本回复，而是可以根据用户的输入，执行特定的函数操作，并返回相应的结果。

2、工作原理

从开发者的角度来看，当向 AI 模型发送请求时，可以同时传递函数定义和用户输入。模型会根据输入内容分析是否需要调用某个函数，并在需要时返回函数名及其参数。开发者的应用程序接收到模型的响应后，根据函数名和参数执行相应的函数操作，然后将结果返回给用户。

例如，假设开发者正在构建一个旅游预订应用。用户询问 “帮我预订明天从北京到上海的机票”，开发者可以定义一个名为 “bookFlight” 的函数，该函数接受出发地、目的地和日期等参数。当 AI 模型接收到用户请求时，它会识别出需要调用 “bookFlight” 函数，并返回函数名和相应的参数值（如出发地为 “北京”，目的地为 “上海”，日期为 “明天”）。开发者的应用程序接收到这些信息后，就可以调用机票预订系统的接口来完成预订操作，并将预订结果反馈给用户。

04 New Realtime API with WebRTC 详细解析

借助 WebRTC，现在只需几行 Javascript 即可添加实时功能。

async function createRealtimeSession(localStream, remoteAudioEl, token) {    const pc = new RTCPeerConnection();    pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];    pc.addTrack(localStream.getTracks()[0]);    const offer = await pc.createOffer();    await pc.setLocalDescription(offer);    const headers = { Authorization: `Bearer ${token}`, 'Content-Type': 'application/sdp' };    const opts = { method: 'POST', body: offer.sdp, headers };    const resp = await fetch('https://api.openai.com/v1/realtime', opts);    await pc.setRemoteDescription({ type: 'answer', sdp: await resp.text() });    return pc;}

1、WebRTC 支持为实时 API 带来了的优势：

简化的代码：与之前的 WebSockets 集成相比，使用 WebRTC 构建实时语音应用程序所需的代码量要少得多。
更好的网络适应性：WebRTC 旨在处理互联网的不断变化的条件，例如带宽波动和网络延迟。
内置回声消除： WebRTC 提供内置的回声消除功能，这对于构建高质量的语音体验至关重要。

2、功能概述

New realtime api with WebRTC 是一种实时通信技术，它基于 WebRTC 标准，为开发者提供了一种在浏览器和移动应用中实现实时音视频通信的简便方法。同时，它还集成了 OpenAI 的模型能力。

3、技术特点

低延迟：WebRTC 技术本身就是实现低延迟的实时通信，通过优化网络传输和数据处理流程，确保音视频数据能够快速、稳定地在客户端之间传输。这对于实时互动场景（如视频会议、在线直播等）至关重要，能够提供流畅的用户体验，避免出现卡顿、延迟等问题。
高质量音视频：支持高清音视频传输，能够适应不同的网络环境和设备条件。开发者可以根据应用需求调整音视频参数，以达到最佳的质量效果。例如，在在线教育场景中，学生和教师可以通过高质量的视频画面和清晰的语音进行互动，提高教学效果。
跨平台兼容性：WebRTC 可以在多种浏览器和操作系统上运行，包括桌面端和移动端。这使得开发者能够构建跨平台的实时通信应用，覆盖更广泛的用户群体。无论是在 Windows、Mac、Linux 系统的电脑上，还是在 iOS、Android 系统的移动设备上，用户都可以使用相同的应用进行实时通信。
AI 集成：与 OpenAI 的模型能力相结合，为实时通信场景带来了更多创新可能。例如，在视频通话中可以实时进行语音识别和翻译，实现不同语言之间的无障碍交流；或者利用 AI 进行视频内容分析，如实时检测画面中的人物动作、表情等信息，并根据这些信息提供相应的智能提示或反馈。

05 新微调方法详细解析

1、什么是偏好微调

偏好微调允许开发者通过提供成对的响应来训练模型，其中一个响应比另一个响应更受欢迎。与监督微调（提供确切的输入和输出）不同，偏好微调侧重于优化模型以捕获用户偏好中的细微差别。

2、功能概述

新微调方法为开发者提供了一种更加灵活和高效的方式来定制 OpenAI 的语言模型，使其能够更好地适应特定的任务和领域。通过微调，开发者可以利用自己的数据集对模型进行训练，从而提高模型在特定场景下的性能和准确性。

3、技术原理

数据准备：开发者首先需要准备与目标任务或领域相关的数据集。这个数据集应该具有代表性，能够涵盖模型在实际应用中可能遇到的各种情况。例如，如果是构建一个医疗诊断辅助模型，数据集可以包括大量的病历、诊断报告、医学影像描述等信息。
模型选择与初始化：选择合适的 OpenAI 基础模型作为起点。OpenAI 提供了多种预训练模型，开发者可以根据任务需求和模型特点进行选择。在初始化模型时，可以使用预训练模型的参数作为初始值，这样可以加快训练速度并利用预训练模型在通用语言理解方面的优势。
微调训练：使用准备好的数据集对选定的模型进行微调训练。在训练过程中，模型的参数会根据数据集的特点进行调整，以学习到特定任务或领域的知识和模式。微调训练的目标是在保持模型通用性的基础上，使其在特定任务上表现得更加出色。例如，在一个情感分析任务中，模型经过微调后能够更准确地识别文本中的情感倾向（积极、消极或中性）。
评估与优化：在微调训练完成后，需要对模型进行评估，以确定其性能是否达到预期。评估指标可以根据任务的性质选择，如准确率、召回率、F1 值等。如果模型性能不理想，开发者可以通过调整数据集、训练参数或模型结构等方式进行优化，然后再次进行训练和评估，直到达到满意的效果。

4、如何开始使用偏好微调？

在 OpenAI 平台用户界面中选择“微调”选项卡。
从“方法”下拉菜单中选择“直接偏好优化”。
选择要微调的基本模型，例如 GPT-4o。
上传训练数据，该数据应包含成对的响应，其中一个响应比另一个响应更受欢迎。
调整任何所需的超参数，或使用默认设置。
点击“创建”以开始微调过程。

最后，OpenAI 还公布了 Go 语音版本和 Java SDK，不过还处于测试阶段。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业