我要投稿

深度 | Llama 3 + Groq 王炸组合出世，英伟达大跌万亿市值，众多投资人被套牢

发布日期：2024-04-25 07:22:32 浏览次数： 2641 作者：Z Potentials

Meta推出Llama 3 后瞬间拉齐了开源大模型和闭源大模型的差距。紧接着，Groq发布关于运行Meta AI的Llama 3 Instruct模型（8B和70B版本）在其LPU™推理引擎上的更新信息，性能是其他产品的两倍以上，成本与其他产品相当甚至更低，极具性价比，未来将对英伟达在AI相关的业务存在巨大威胁，英伟达上周股价一路下跌，最高单日下跌10%，单周跌去3200亿美金，超2万亿人民币市值。

Llama 3模型的发布与部署：

2024年4月18日中午，Meta AI发布了其最新的大型语言模型（LLM）Llama 3。
2024年4月19日午夜，Groq宣布其LPU™推理引擎已经部署了Llama 3的8B（8千字）和70B（4千字和8千字）版本，并且这些模型已经向开发者社区开放，可以通过groq.com和GroqCloud™控制台访问。

性能基准测试：

ArtificialAnalysis.ai独立进行了基准测试，结果显示Groq在Llama 3 8B模型上实现了877 tokens/s的吞吐量，在Llama 3 70B模型上实现了284 tokens/s的吞吐量，这比其他提供商高出2倍以上。

成本竞争力：

Groq提供的模型不仅性能高，而且在成本上也具有竞争力，定价与其他提供商相当或更低

ArtificialAnalysis.ai 采用的混合价格（输入/输出）为每 100 万个Token 0.64 美元，而 Groq 目前提供的 Llama 3 70B 的价格为每 100 万个Token 0.59 美元（输入）和 0.79 美元（输出）。

性能指标：

Groq为Llama 3 70B提供的性能是每秒284 tokens，比其他提供商快3到11倍。
对于延迟（从接收到第一个tokens块所需的秒数）与吞吐量（每秒tokens数）的比较，Groq的延迟为0.3秒，吞吐量为每秒282 tokens。
以接收100个tokens输出所需的时间来衡量，通过延迟和吞吐量指标计算，Groq的总响应时间为0.6秒。

Groq是谁？

Groq是一家成立于2016年的公司，以其快速的AI云服务体验平台而闻名。该公司的云服务可以迅速生成数百个单词的答案，其速度和效率在AI圈内引起了广泛关注。Groq的LPU（Large Processing Unit）在人工智能推理任务中，特别是在处理大型语言模型（LLMs）时，确实展现出了一些引人注目的优势，这些优势可能对Nvidia、AMD、英特尔等在人工智能硬件市场的主要厂商构成威胁。以下是Groq LPU的一些关键优势：

高性能和高效率：

Groq LPU专为快速推理任务设计，采用基于张量流处理器（TSP）架构的单核单元，提供高性能的计算能力。它在INT8精度下能够达到750 TOPS，在FP16精度下达到188 TeraFLOPS，具有320x320融合点乘矩阵乘法和5,120个矢量ALU，以及80 TB/s的带宽和230 MB的本地SRAM。

主要推理数据：

Groq LPU在推理速度方面表现出色，能够为像Llama 2 70B这样的大型模型提供每秒300个Token的处理速度，对于更小的模型，速度可高达750 Tokens/秒。它在令牌吞吐量和延迟方面均优于基于GPU的云服务提供商。

效率和成本效益：

Groq LPU的设计注重能效比，与传统GPU相比，它通过减少外部内存瓶颈和多线程管理开销，提供更高的每瓦计算能力，从而降低功耗和资源需求。

可扩展性和易用性：

Groq的LPU推理引擎是一个端到端系统，能够连接多个张量流处理器，避免了GPU集群的瓶颈问题，展现出良好的可扩展性，并简化了大规模人工智能模型的硬件要求。

未来应用的潜力：

Groq LPU的快速处理能力为实时、低延迟的LLMs应用提供了新的可能性，如网络攻击检测、应急响应等，这些应用场景需要快速处理大量文本数据并迅速做出响应。

谷歌TPU创始团队离职创业，获Tiger Global等知名机构支持

全世界最便宜，比顶级云厂商快一个数量级，这两个标签同时出现在这家创业公司身上，让人很好奇他的幕后团队和成长历史。

Groq成立于2016年，是一家在泳池边创立的公司，诞生的初衷是让人工智能对所有人都更加可及。Groq总部位于加利福尼亚州的Mountain View，团队成员被称为Groqsters。团队分布在从圣迭戈到奥斯汀再到纽约市的各地，Groqsters主要集中在硅谷、多伦多、利伯蒂湖和伦敦。

Groq的团队可谓是星光熠熠，创始人是前谷歌员工 Jonathan Ross。他实现了谷歌的首款Tensor Processing Unit (TPU)——支持AlphaGo的自定义机器学习芯片平台。谷歌TPU团队中有多名成员跟随Jonathan离开谷歌加入了Groq。

Groq的股东阵容也非常豪华，包括Tiger Global在内的知名投资机构都支持过它的融资。Groq公开披露的最后一轮融资于2021年4月由D1 Capital Partners领投，融资额3亿美元，投后估值11亿美元。

Groq LPU的这些特性使其在人工智能硬件市场上成为一个强有力的竞争者，尤其是在对超低延迟推理有特别需求的场景中。然而，市场竞争力不仅仅取决于技术性能，还包括生态系统支持、软件兼容性、市场渗透率和客户接受度等多个因素。因此，尽管Groq展现出了技术上的优势，但它是否能真正威胁到Nvidia及其他行业巨头的市场地位，还需要看它在商业化和市场推广方面的后续表现。