我要投稿

Z Product｜ChatGPT Voice之父离职创办语音模型公司，种子轮即获a16z 4000万美金，估值数亿美元

发布日期：2025-01-22 07:03:06 浏览次数： 1773 作者：Z Potentials

Z Highlights

WaveForms致力于开发音频大模型（LLMs），通过创新的端到端音频处理技术，实现更加实时、类人化且情感智能化的语音交互。与传统语音模型不同，WaveForms的音频模型不是语音转文本再转语音，而是能够直接处理音频，实现更自然的对话和情感互动。
WaveForms的核心使命是让AI具备同理心，关心人类，并将情感连接置于智能发展的前沿。其创始人Alexis Conneau将情感智能视为AGI（通用人工智能）实现的关键，强调AI与人类的互动不应仅停留在技术层面，而应具备理解和响应人类情感的能力。
WaveForms由前OpenAI高级语音模式研发者Alexis Conneau创立，团队拥有强大的技术背景，包括在AI生态、语音识别和自然语言处理领域的经验。公司于2024年12月宣布完成了4000万美元的种子轮融资，估值为2亿美元，由a16z领投，资金将用于进一步的技术研发和团队扩建。

01 WaveForms的愿景是打造情感通用智能（EGI）

2024年12月，a16z宣布完成对初创企业WaveForms AI的投资，这是一家专注于音频大型语言模型（LLMs）研究和产品的公司，旨在解决语音图灵测试，并将情感智能带入AI。这与当前市面上的语音模型不同，普通模型通常要完成多个步骤——先转录用户的语音以生成文本回复，再通过文本转语音（TTS）模型来回应，而WaveForms端到端的音频语言模型能实现更实时和类人式的沟通互动，并能够充分捕捉用户语音中的情感细节，理解对话语境，采取恰当的情感方式做出回应。具体做法是给AI注入社交情感层将使其更接近作为人类的根本特质：情感、关系和互动方式。

图片来源：WaveForms AI

创始人Alexis Conneau曾在OpenAI负责GPT-4o模型的语音模式功能研发，该模型于2024年初发布的时候就展示了无延迟的实时响应以及处理中断的能力。目前WaveForms的重心在于研发音频大模型，未来，公司也计划打造消费软件产品，目标是在2025年发布能够与OpenAI和Google竞争的AI音频产品。AI结合情感智能的模型应用广泛，例如可以通过识别学生的挫折感而相应调整教学方式变得更有耐心和个性化，以及用户能够在车里与人工智能交谈20分钟以了解某件事情。

公司有一个既简单又雄心勃勃的北极星目标——追求情感通用智能（EGI）的梦想，创造自然、个人化且深刻的人类与AI连接。但并非像AI陪伴/伴侣的Character.AI，Conneau对于人工智能陪伴领域持谨慎态度，认为这并不是其新公司的核心，他相信与生成式人工智能交谈将成为与各种技术互动更常见的方式，WaveForms旨在提供能够促进这一切的“情感智能”人工智能。WaveForms的创新标志着AI交互正在从功能性向情感化迈进，这或将重新定义人机交互的边界。

在讨论AI audio模型时，经常有一种说法是它们可以“理解情绪”。就像基于文本的LLMs是基于大量文本文件中的模式一样，音频LLMs也是通过人类谈话的音频片段做同样的事情。人类将这些片段标记为“悲伤”或“兴奋”，以便 AI 模型在听到你说时识别类似的声音模式，甚至以自己的情感语调回应。AI audio模型不是“理解情绪”，而是系统地识别人类将这些情绪与之关联的音频特质。

02 拥挤的音频模型赛道，WaveForms有自己的想法

马斯克曾在和Peter H. Diamandis讨论中提及他创建X AI的原因之一是为了拥有一个最大程度追求真理、热爱人类并且会为人类的最佳利益而努力的AI，而WaveForms称其的使命是让AI真正关心人类，将同理心和情感连接置于超智能的单一追求之上，二者的理念不谋而合。WaveForms正在从全新的AI智能维度——音频智能出发，向这一愿景努力。

Whisper是OpenAI推出的一款开源通用音频模型，支持多语言（高达99种）的语音转文本和多任务处理能力。这款模型的设计重点在于实现高效的跨语言语音识别，特别是在嘈杂环境下的表现尤为突出。Whisper在庞大的跨语言数据集上进行训练，能够理解并转换不同方言、口音和语言的语音内容，无论是标准语言还是具有特定口音的语音，Whisper都能提供精确的转录。Whisper的核心优势在于其庞大的数据集和模型参数：通过训练68万小时的大规模语音数据，并利用1.5B的参数量，保证了其在语音识别领域的性能。这使得Whisper相比市场上许多单任务的端到端（E2E）语音识别模型，具有更高的准确性和更强的适应性。

NVIDIA AI发布了音频模型Fugatto，拥有25亿参数量，能够根据自然语言提示生成音效、调整人声以及创作音乐。从技术角度来看，Fugatto融合了最新的深度学习技术，突破了传统的监督学习框架，采用创新的数据生成方法，能够实现音频生成的灵活性和多样性。Fugatto通过训练包含多种音频任务的数据集，具备了处理复杂音频生成、音频转换等多任务的能力。与传统的音频处理模型相比，Fugatto在音频创作上的表现突出，能够根据文本提示生成高度定制的音效、音乐片段甚至是特定的情感氛围音效。

Moshi是由法国创业团队Kyutai在2024年7月发布的开源端到端实时音频模型。其在音频生成方面的创新体现在采用了多流建模技术（multi-stream modeling）和内心独白技术（Inner Monologue），使得其在语音生成的质量和真实感上有了显著提升。官方公布的技术细节中，Moshi由三个主要组件构成：Helium语言模型、Mimi神经音频编解码器和一种全新的多流架构。其设计旨在推动音频生成技术向更高质量、更低延迟的方向发展，尤其适用于实时音频处理场景。内心独白技术是Moshi另一大独特之处，该技术使得模型在生成语音时，能够在不显得生硬的情况下，加入一些内在的情感变化和语气波动，从而使得生成的音频更加自然且富有表现力。这个技术适用于情感驱动的应用，如虚拟人物、情感化语音助手以及具有情感交互需求的娱乐产品。

Conneau提到，OpenAI的“高级语音模式”这一名称并未准确反映出该技术与传统语音模式之间的区别。传统的语音模式只是将语音转换为文本，经过GPT-4处理后，再将文本转回语音。而OpenAI“高级语音模式”则不同，它利用GPT-4o将音频信号分解为标记，然后通过专门的音频变换模型对这些标记进行处理。正是这种处理方式，使得高级语音模式能够实现显著更低的延迟。

03 前ChatGPT Voice负责人联合前Google战略负责人共同创办

WaveForms AI团队目前五人，创始人Alexis Conneau曾在OpenAI共同创造了GPT4-o高级语音模式神经网络，是全球领先的音频+文本大语言模型（LLMs）专家之一。曾先后在Google和Meta担任研究科学家。值得注意的是，在Meta工作的七年里，在FAIR团队中他开发了用于文本理解和语音识别的掩码语言模型，这些模型也已在生产中使用。他是前OpenAI的联合创始人兼首席科学家Ilya Sutskever招募来的，两人在许多理念上有相似之处。

Conneau对电影《Her》思考了很多，过去几年他一直痴迷于试图将电影中虚构的语音技术Samantha变为现实，因此，从ChatGPT的高级语音模式到新的初创公司WaveForms AI，他一直在尝试构建更好的音频技术。“我认为当你能够与AGI交谈、当你能听到AGI、当你能真正与Transformer本身交谈时，你会更能感受到它”，Conneau说。

图片来源：LinkedIn

联合创始人Coralie Lemaitre是一位杰出的商业战略领导人，曾在Google和BCG的战略与运营领域有十年的经验，她还曾领导过多个领先科技公司的产品和市场战略。

图片来源：LinkedIn

CTO Kartikay Khandelwal之前则领导了PyTorch的AI生态，除此之外公司还有两位技术员工。

图片来源：LinkedIn

04 a16z领投4000万美元种子轮

WaveForms AI于2024年12月宣布完成了融资额为4000万美元的种子轮融资，估值达2亿美元，由知名风投机构a16z领投，资金将用于模型的研发和扩建团队。此次对于音频的布局，可以看出a16z将情感智能引入人工智能赛道的决心。WaveForms的团队相信，实现AGI将更多依赖于一种感觉，而不是达到某种基准，音频LLMs将是这种感觉的关键。

“为了创造最具沉浸感和类人体验，我们需要真正感觉像在与人交谈的AI。这包括给AI一个声音。”公司种子轮领投方a16z说，“我们无法想象有比这更好的团队来应对这一挑战。该公司由CEO Alexis Conneau领导，他是世界领先的音频和文本LLM研究员，也是OpenAI的GPT4-o Advanced Voice Mode的共同创造者。来自Google的杰出商业策略领袖、联合创始人Coralie Lemaitre将推动产品策略和运营，使公司的愿景成为现实。”

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业