微信扫码
与创始人交个朋友
我要投稿
嘉宾:Karthikeyan Rajendran
NVIDIA“全栈”战略核心理念
通过开源和社区合作加速AI创新。
NVIDIA“全栈”战略三大层次
RTX GPU:面向光线追踪应用,主要用于PC和工作站。
CV-CVS:CUDA加速向量搜索库。
数据科学工作流演变的“四个时代”
技术限制:无通用GPU,计算能力有限,数据生成以任务驱动为主。
应用领域:GPU进入高性能计算(HPC)和超级计算机领域,部分场景取代CPU。
GPU加速库(如NVIDIA RAPIDS)提升大数据处理效率。
数据策展(Data Curation)
特定应用:数据策展旨在产出高质量数据,支撑高精度、高保真模型构建,满足特定用例或基准要求。
数据评估:评估分类后数据质量,识别质量较差的领域,并考虑生成合成数据进行补充。
数据驱动决策:通过分析策展后的数据,企业可建模客户行为,制定数据驱动的决策。
数据科学会议和社区互动是学习最佳实践和工具的重要途径。
AI应用数据类型
特点:规范易处理,分析成本低。
特点:互联网和移动设备驱动,数据量持续增长。
“暗数据”(Dark Data)
“暗数据”是指未被有效分析和利用的数据,常因工具或资源不足而闲置于组织系统中。
数据质量问题:不完整、空值等问题降低数据可用性。
约80%的数据 未被充分利用,凸显其潜在价值。
未来三到五年数据科学与GPU领域主要趋势
实际应用: 从数据预处理到模型训练和推理,全流程依赖GPU。
重要性: 降低延迟、提升效率并增强安全性。
NVIDIA AI平台及战略
Molly Presley
你能否详细介绍一下NVIDIA AI Enterprise(NVAIE)软件及其在生态系统中的作用?
Karthikeyan Rajendran
NVIDIA AI Enterprise软件就像是面向下一代AI工作负载的操作系统。
我们的目标是提供一个完整的软件栈(Software Stack),帮助客户处理和整理数据,定制或构建AI模型,并将这些模型部署到不同的环境中——无论是在笔记本电脑上、云端还是混合环境中。
该平台支持AI生命周期的每个阶段,旨在帮助组织最大限度地发挥其数据和AI投资的价值,而不受底层基础设施的限制。
Molly Presley:
细微的差异很重要。即便是像“GPU不仅仅是GPU”这样的基本问题,也需要深刻理解。我相信这种理解对你一定大有裨益。请你谈谈NVIDIA的NVAIE部门。在这样一家规模庞大且具有主导地位的公司中,你们的使命是什么?
Karthikeyan Rajendran:
可以将NVIDIA看作一家“全栈”(Full-stack)公司。所谓全栈,是指公司在三个主要层次上运营。
第一层是硬件层,包括CPU、GPU和DPU等芯片,这是基础层。
第二层是其之上的基础库层,例如CUDA、cuDNN,甚至Python。这一层提供了抽象能力,使开发者可以不依赖底层硬件进行编程,并提供构建软件所需的API。
第三层是中间应用层。客户会在这一层构建应用程序,这些客户涵盖了从ServiceNow和Salesforce到OpenAI的公司。NVIDIA为这些应用程序提供了基础库支持。
例如,在数据处理领域,我们有一个开源库叫NVIDIA RAPIDS。它通过cuDF实现数据处理,通过cuML实现机器学习。此外,我们还有专门的数据加载库DALI,对于每天生成数TB图像数据的自动驾驶汽车来说,这一功能至关重要。
最近,我们推出了另一个库CV-CVS(NVIDIA CUDA Vector Search),利用CUDA加速向量搜索(Vector Search)。
NVAIE部门的目标是成为AI的操作系统。我们开发的库和API可以无缝集成,这确保了当NVIDIA从一个GPU架构(如Volta)迁移到另一个架构(如Ampere、Hopper或Blackwell)时,应用程序不仅能够保持兼容性,还能通过升级到新架构实现更快的性能提升。
NVAIE通过提供一套库平台,让客户能够在不考虑硬件或软件依赖的情况下构建应用程序。
Molly Presley:
你们正在构建一个库平台。那么,你们如何看待与平台相关的其他部分?是否会涉及Kubernetes或工作负载和数据的编排?你的平台在技术栈中的覆盖范围有多深?
Karthikeyan Rajendran:
最近我们推出了NIM Blueprints。NIM即NVIDIA Inference Microservices(NVIDIA推理微服务)。
目前有许多模型,例如Llama 2、Llama 3、Mistral、Anthropic和Bedrock。每种模型都有特定的应用场景和硬件需求。例如,客户今天可能会在Hopper架构上运行一个700亿参数的模型,但明天可能希望将其迁移到Ampere A100 GPU上。
NVIDIA Inference Microservices确保模型针对特定硬件进行了优化,无论是吞吐量、性能还是延迟(包括首次输出延迟或Token间延迟),都能实现最佳效果。
为了解决部署挑战,我们提供了NVIDIA Blueprints。这些是基于Helm Chart的参考架构,客户可以用它们来部署应用程序。
例如,我们创建了一个用于客户服务的数字人Blueprint,以及一个多模态PDF提取器Blueprint。后者可以帮助处理数千甚至数百万份文档,将它们嵌入到向量数据库中,并实现有洞察力的问答功能。NVIDIA Blueprints旨在简化Kubernetes等环境中的部署过程。
Molly Presley:
我无法想象你们收到的NVIDIA Blueprints请求有多少。跨行业和各种应用场景的潜在应用一定数不胜数。你们如何决定重点关注哪些方向?
Karthikeyan Rajendran:
我们许多库和Blueprint都源自客户的需求。他们会向我们提出具体的瓶颈或应用场景,希望我们提供解决方案。
我们的产品经理确实工作繁忙。我们的Blueprint路线图上有200到300个项目。为了解决这一问题,我们会专注于特定的业务垂直领域。虽然NVIDIA是一家平台公司,但我们也服务于金融、医疗、汽车和制造业等行业。每个行业都有独特的应用场景,我们会开发针对这些需求的Blueprint。
数据科学工作流的演变
Molly Presley:
这让人得以一窥NVIDIA的运营模式。许多公司正在部署你们的技术,但仍在学习如何有效地使用它们。
让我们回到更广泛的话题。GPU如今几乎成了AI的代名词。几乎无法打开电视或阅读文章而不听到关于它们的讨论。从你的视角来看,作为在NVIDIA工作六到七年的员工,数据科学(Data Science)和工作流(Workflow)在这段时间里是如何演变的?
Karthikeyan Rajendran
我将数据工作流的演变分为四个不同的时代。第一个时代大约持续了20年左右,我称之为GPU之前的时代。这个时期大约持续到2006或2007年,以顺序处理(Sequential Processing)、小到中等规模的数据和侧重于统计模型为特征。在那个时候,GPU,或者更准确地说是GPGPU(通用GPU,General Purpose GPU),并没有广泛为人所知或被广泛使用。数据生成有限,主要是任务驱动的,且对高性能计算(HPC)的需求非常少。
GPU的引入标志着第二个时代的到来,开启了并行处理(Parallel Processing)的新可能性。这一时期我们看到了像AlexNet这样的突破,它利用GPU进行深度学习(Deep Learning)。在这一阶段,GPU主要用于高性能计算(HPC),它们开始进入超级计算机领域,从最终用户机器转变为大规模计算系统的一部分。
Molly Presley:
那是GPU转向超级计算机的时期,对吧?它们开始在许多情况下取代CPU。
Karthikeyan Rajendran:
没错。进入那个时代之后,我们进入了第三个阶段,我将其描述为现代数据科学工作流时代。这个时代大约从六七年前开始,主要由两个重要因素推动:深度学习革命和分布式计算(Distributed Computing)的兴起。像TensorFlow和PyTorch这样的框架使深度学习变得更加普及,而云计算(Cloud Computing)使GPU集群能够被更广泛的用户群体访问。像NVIDIA RAPIDS这样的工具应运而生,能够在GPU上进行大数据处理,从而促进更快速和高效的工作流。
最后,我们现在正处于第四个时代,即AI工作流时代。像Llama和GPT这样的“大型语言模型”(LLM)正在改变我们与数据互动的方式。例如,用户不再需要编写SQL查询,而是可以直接向LLM提问,获取特定的洞察,比如“在这个邮政编码中,购买了产品X的前10名客户是谁?”LLM将其转化为SQL查询,检索数据并呈现结果。这种向AI驱动的工作流转变,已经从根本上改变了我们处理数据的方式。
数据策展与GPU选择
Molly Presley:
看到这些时代如何演变,真是令人着迷。虽然现在的焦点是AI工作流,但早期的数据和工作流类型依然相关,尽管它们可能不会成为头条新闻。比如说,现在仅有大约20%的数据得到了充分利用。那你觉得,我们该怎么应对利用那剩下的80%数据的挑战呢?
Karthikeyan Rajendran:
大多数数据未被使用的主要原因是缺乏足够的计算资源来有效地整理它。组织通常会丢弃80%的数据,仅仅是因为无法处理这些数据。然而,GPU和先进的数据策展(Data Curation)工具正在弥合这一差距。凭借今天的计算能力,我们能够在更短的时间内整理海量数据,从而获得以前无法获取的洞察。
例如,考虑客户流失分析。假设我们要分析过去五个感恩节假期的销售趋势,结合天气情况来预测未来需求。这需要筛选数PB的历史数据以识别模式,而这一任务正是GPU和现代工具擅长的。通过整理后的数据,企业可以建模客户行为并做出数据驱动的决策,比如是否需要备货更多的鳄梨、玛格丽塔酒或南瓜。
Molly Presley:
顺便提一下,我最近与一所大学讨论了未被利用的数据。想一想这些年来提交的所有博士论文。一旦完成,许多文档就再也没有被重新审视,尽管它们包含了有价值的洞察。如果我们能够利用这些知识,想象一下可能带来的影响。这与你刚才提到的观点相似——如此多的数据和洞察未被使用,甚至不止是大型语言模型(LLM)中的数据。这为我们提供了巨大的机会。
Karthikeyan Rajendran:
完全同意。解锁这些沉睡的知识的潜力是巨大的,我们才刚刚开始触及这一领域的表面。
Karthikeyan Rajendran
确实,我完全同意。可能会有成千上万甚至数万个文档。一个“数据整理工具”(Curator)将帮助我们找出最相关的10个文档。所有文档在研究质量上可能都很高,但这10个文档才是最重要的。这就是“数据整理工具”发挥作用的地方。
接下来,任务是将这些文档分类为五个不同的主题,并提取相关数据。这将非常强大。在未来,大家基本上都能像博士候选人一样,访问到这种结构化的信息。
Molly Presley
我们来谈一谈GPU。GPU代表图形处理单元(Graphics Processing Unit)。你能解释一下不同类型的数据模式吗?所有GPU都是一样的吗?在某些情况下,你还推荐使用CPU吗?你是如何看待这些区别的?
Karthikeyan Rajendran
让我先回答第一个部分——不同类型的数据。在我看来,我们客户主要有三种类型的数据。
1. 结构化数据(Structured Data):
这包括来自结构化数据库的文本或数字数据,或者来自网站的JSON文件。例如,当你访问Amazon.com、eBay.com或Walmart.com时,你会收到每个页面的结构化JSON数据。这种数据是推荐系统和类似应用程序的基础。
2. 图像和PDF(Images and PDFs):
这是一种半结构化数据(Semi-structured Data),通常是在互联网时代产生的,并且越来越多地通过移动设备生成。它用于图像识别和推荐类似的内容或产品。
3. 视频和音频(Video and Audio):
这是一种相对较新的数据模式。它包括来自汽车系统的视频序列深度学习训练数据和音频处理数据,用于客户聊天机器人等应用程序。例如,OpenAI的Sora和类似的工具就是此类应用的例子。
这三种主要的数据模式是:结构化和半结构化文本、基于图像的数据,以及较新的视频和音频数据。
Molly Presley
所有GPU都是一样的吗?
Karthikeyan Rajendran
我希望它们是一样的,但实际上GPU有很多不同类型。大致来说,我将它们分为三类:
1. 大型GPU(Large GPU):
这些包括NVIDIA的Hopper、Ampere和即将发布的Blackwell GPU。它们非常适合生成式AI(Generative AI)和深度学习应用。
2. 推理GPU(Inference GPU):
这些是像T4、L4和A10这样的较小GPU。它们通常用于云环境,并且经过优化,适合推理(Inference)任务。尽管训练GPU和推理GPU之间的界限越来越模糊(例如,Grace Hopper将CPU和GPU能力结合在一起),但推理GPU在成本效益和适用于小规模工作负载方面更具优势。
3. RTX GPU(RTX GPU):
这些GPU专为光线追踪(Ray Tracing)设计,通常用于笔记本电脑、PC和工作站。
Molly Presley
你们的CEO曾说过,最大的浪费之一就是让GPU闲置不用。他的意思是,GPU非常有价值,但也可能成本高昂且消耗大量资源。对于那些仍在探索数据和AI战略的公司来说,他们应该如何考虑选择合适的GPU,以避免效率低下?
Karthikeyan Rajendran
我完全同意我们CEO的看法。一个未充分利用的GPU就是浪费钱。
对于结构化或半结构化数据处理,尤其是需要处理的是GB或TB级别的数据,而不是PB级别时,我们推荐使用较小的推理GPU,如T4、L4或A10。
这些GPU之所以高效,主要有两个原因:
1. 云环境(Cloud Environments):
在云环境中,你面临I/O限制,无论是从S3读取数据,还是在分布式系统中传输数据。较小的GPU在这些约束下表现更好。
2. 成本与性能(Cost and Performance):
较小的GPU提供比CPU高5到10倍的性能,同时具备较好的成本效益。
可以将其类比为选择小车和大卡车之间的选择。如果你只需要运输一个小包裹,使用一辆大型卡车就是浪费。同样,对于数据处理工作负载,除非你处理的是海量数据集或面临严格的时间限制,否则较小的GPU通常更高效。
对于像NVIDIA DGX这样的本地系统(On-premises System),使用的是H100或Blackwell GPU,重点是为GPU提供足够的IO和内存,例如使用NVMe或Lustre进行高速存储。而在云环境中,这些资源通常有限,因此较小的GPU对于许多工作负载来说更加实用。
Molly Presley
你可能比我们大多数人接触到更多的工作流。你能分享一些关于如何选择GPU的关键洞察或建议吗?
Karthikeyan Rajendran
当然可以。在iPhone和自动驾驶汽车时代之后,我们正在生成大量的数据。NVIDIA提供了Blueprint参考架构(Blueprint Reference Architecture),帮助客户高效地访问和处理分布式数据。
在选择GPU时,需要考虑以下几点:
1. 你处理的数据类型(结构化数据、半结构化数据、视频或音频)。
2. 你的工作负载规模(GB、TB还是PB)。
3. 你是在本地环境中操作还是在云环境中操作。
对于基于文本或中等规模的工作负载,较小的GPU通常就足够了,而对于深度学习和生成式AI应用,较大的GPU则是必需的。平衡成本、性能和工作负载需求是最大限度地提高投资回报的关键。
Karthikeyan Rajendran
数据策略与计算策略同样重要。假设你有一个具体目标,比如预测未来趋势——这可能涉及销售预测或客户流失分析。首先,你需要明确业务案例和目标。例如,在销售预测或客户行为分析中,你需要识别相关内容,确定合适的时间周期,并建立粒度。这些都是开始之前的关键考虑因素。
另一个关键因素是数据质量。客户可能拥有六年的数据,但如果其中大部分数据不完整或包含空值,将面临挑战。确保数据的完整性和准确性至关重要。一旦你解决了数据质量问题并确定了数据量和结构,就可以决定合适的策略。例如,如果处理的是几TB的数据,需要决定是否使用GPU、利用哪些库,以及最终目标是什么。
这些考虑因素将指导我们选择合适的GPU、工作流(workflow)和库(library)。同时,预算也是一个关键因素。正如我在商学院学到的,哪怕是最好的想法,也需要清晰的投资回报率(ROI)才能成功。
Molly Presley
你最近是不是也经常听到大家都在强调数据策展(Data Curation)的重要性?我注意到,在最近的CDO峰会上,这个话题越来越受重视,这跟前几年很不一样。您怎么看?
Karthikeyan Rajendran
是的,数据策展(Data Curation)正变得越来越重要,原因有几个。
首先,虽然数据的数量庞大,但往往缺乏高质量的数据。例如,企业——无论是电子商务还是客户服务——可能需要“策展”数据来微调(Fine-tune)他们的模型。一个常见的挑战是确定数据是否相关且高质量。
我们内部工作流的一个好例子是涉及数十万份PDF文档。许多文档只是旧文档的小修订。经过审查,真正有价值的文档数量可能缩减到几千份。识别重复项并对数据进行分类——无论是设计文档、客户对话还是销售数据——都是至关重要的。
一旦对数据进行了分类,就可以评估其在各个领域的质量。如果发现某些领域的数据质量较差,可能会考虑生成合成数据(Synthetic Data)。这个过程确保了“策展”的数据能够支持构建高准确性和高保真度的模型,以满足特定的使用案例或基准要求。
Molly Presley
这很有道理。它让我想起了CERN的大型强子对撞机(Large Hadron Collider),它每秒钟生成一个PB的数据。他们并不会保留所有的数据,而是使用软件将数据提炼成有意义的洞察。如今,企业面临着类似的挑战——如何管理和“策展”海量的数据。你认为人们可以在哪里学习数据策展的最佳实践和工具?
Karthikeyan Rajendran
我建议参加数据科学会议并与社区互动。例如,NVIDIA将在即将举行的Open Data Science Conference(ODSC)West会议上亮相。我们的产品经理将发表主题演讲,这些活动是向客户和从业者学习的好机会。
NVIDIA与开源社区紧密合作。我们的库建立在开源平台上,这意味着我们积极与社区合作,改进这些库。参加这些活动并与更广泛的生态系统互动,往往能激发出比仅仅在组织内部开发的更好的想法。
计算资源普及化与未来展望
Molly Presley
我们来讨论一下如何让大计算资源变得更加普及。历史上,只有专业化的组织才能访问超级计算资源。现在,大计算资源的访问已经成为企业和政府的一个差异化因素。NVIDIA正在做些什么来使大计算资源变得更加可访问?
Karthikeyan Rajendran
NVIDIA致力于通过多个举措实现大计算资源的普及化。一个关键的努力是我们的Blueprint和参考架构,帮助组织快速采用GPU加速计算。这些资源提供了如何为特定工作负载设置和优化基础设施的清晰指南,无论是训练像Llama这样的巨大语言模型(LLM),还是运行企业级AI应用程序。
此外,NVIDIA的云产品和与主要云服务提供商的合作确保了各类规模的组织都能访问高性能计算,而无需进行大量的前期投资。这种方法正在改变各个行业,使更多的组织能够利用AI和先进分析来保持竞争力。
Karthikeyan Rajendran
我有幸从我们的创始人兼CEO黄仁勋(Jensen Huang)那里学到的一件事,就是他专注于减少计算资源获取的障碍。作为领导者,他推动我们每年将计算成本降低3到5倍。
例如,现在一个10万CPU的集群可以被仅仅几十个GPU替代。这种转变不仅降低了成本,还解决了电力和空间的限制。历史上,这样的计算能力仅限于超级计算机。而今天,你可以从亚马逊租赁一个10个GPU的集群,实际上是在构建自己的超级计算机。只需100美元,你就可以按小时租用这套基础设施,进行处理并获得曾经只有专业组织才能访问的结果。
在NVIDIA,我们不仅仅止步于此。每年,我们都致力于进一步降低每次计算操作的成本——无论是按每次浮点运算(FLOP)计算,还是其他度量标准。我们的创新通过两种关键方式实现了计算资源的普及化。
首先,我们让计算变得更加便宜和可获取。其次,我们确保我们的库,如NVIDIA RAPIDS、CUDA和cuDF,都是开源的。这些库提供了直观的API,能够与广泛使用的工具如Pandas和Scikit-learn兼容。这样可以减少学习曲线,使开发者能够专注于解决问题,而不是掌握复杂的编程技能。
此外,大型语言模型(LLM)可以帮助编程,提供起点甚至完整的解决方案。这大大提高了软件工程师的生产力。通过降低计算成本和简化可获取性,NVIDIA正在让超级计算能力更广泛地可用于更多人群。
Molly Presley
太棒了。你认为未来三到五年,我们会发展到什么程度?我了解黄仁勋和NVIDIA一直具有前瞻性,但你对未来的挑战和机遇有何见解?
Karthikeyan Rajendran
在我看来,数据科学和GPU将成为同义词。AI、数据科学和GPU将成为数据处理的基础。这一转变将使GPU成为运行数据科学工作负载的标准平台。
另一个转变领域是边缘计算(Edge Computing),特别是在GPU和AI推理方面。随着处理向边缘迁移——无论是自动驾驶汽车、6G网络还是工业物联网系统——GPU将在其中发挥关键作用。
例如,工业自动化在某些行业中已经停滞。以海上石油钻井平台为例:这些环境危险,工人们往往在孤立的条件下工作数月。通过部署边缘推理与GPU,我们可以自动化响应关键事件,允许远程操作员在安全距离控制操作。这种创新有潜力彻底改变行业并提高安全性。
最后,我认为GPU与量子计算的结合是一个非常有趣的研究领域。这里有巨大的突破潜力,可能会彻底改变我们所知的计算方式。
总结来说,我看到的三大变革领域是:
1. GPU成为数据科学的默认平台。
2. 边缘计算和AI推理的扩展。
3. GPU与量子计算的结合。
前两个领域是我深度参与的,我相信我们将在不久的将来看到显著的进展。
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-21
台前调度是未来XR、AI工作流的重要交互方式
2024-12-21
深度|AI 的下个十年,藏不住了!
2024-12-20
突破科技界限:OPPO 与 Azure 携手塑造智能手机新体验|智有可为
2024-12-20
Nvidia 的 CUDA 护城河到底有多深?
2024-12-20
9.3K Star 全能电脑AI助手!ScreenPipe:离线版 Rewind.ai,智能记录你的电脑活动
2024-12-20
火山引擎与FoloToy,乐鑫等企业联合发布 AI + 硬件智跃计划
2024-12-18
NVIDIA 推出高性价比的生成式 AI 超级计算机
2024-12-18
英伟达新品“掌心AI超算”,¥1800跑8B多模态模型,算力暴增70%价格腰斩
2024-03-30
2024-05-09
2024-07-07
2024-07-23
2024-07-01
2024-06-24
2024-06-08
2024-06-05
2024-06-21
2024-07-11
2024-12-20
2024-12-15
2024-11-12
2024-11-11
2024-10-29
2024-10-22
2024-10-18
2024-10-16