我要投稿

利用 ChatRTX 搭建本地对话机器人

发布日期：2024-06-08 06:36:42 浏览次数： 2781 作者：慢慢学 AIGC

1、引言

ChatRTX 是一个演示应用程序，让您可以将大型语言模型(LLM)个性化为连接到您自己的内容——文档、笔记、照片或其他数据。利用检索增强生成(RAG)、TensorRT-LLM 和 RTX 加速，您可以查询自定义的聊天机器人，快速获得与上下文相关的答复。而且由于它全部在您的 Windows RTX PC 或工作站上本地运行，因此您将获得快速和安全的结果。

ChatRTX 支持各种文件格式,包括文本、PDF、doc/docx(与 LLM 一起使用)以及 jpeg、gif 和 png(与 CLIP 一起使用)。只需将应用程序指向包含您文件的文件夹，它就会在几秒钟内将它们加载到库中。ChatRTX 技术演示是从 GitHub 上的 TensorRT-LLM RAG 开发者参考项目构建的。开发人员可以使用该参考来开发和部署自己基于 RAG 的 RTX 应用程序，并由 TensorRT-LLM 加速。

2、前置条件

ChatRTX 目前构建于至少具有 8GB GPU 内存的 RTX 3xxx 和 RTX 4xxx 系列 GPU(不支持 vGPU 配置)；

至少100 GB可用硬盘空间；

Windows 10/11；

最新的NVIDIA GPU驱动程序；

3、安装提示

关注本公众号，后台回复“ChatRTX” 获得 ChatRTX 安装包下载链接。

安装程序将下载各种软件库、AI 模型权重和引擎文件。根据选择的模型不同，总下载量约为 11 GB。下载和安装时间因您的网络连接和服务器负载而异。大约需要 10 到 30 分钟。请确保您系统的睡眠功能在安装过程中处于禁用状态。如果安装失败并显示错误消息。请重新运行安装程序,它将从停止的地方恢复并继续安装过程。如果安装失败后已安装了部分组件。请在下次安装尝试时选择"执行全新安装"。

虽然安装程序包含了大部分所需的大文件，但它仍然需要从公共服务器下载一些文件。如果这些服务器关闭，则安装程序可能会失败或暂时停滞。

如果您选择将应用程序安装在默认安装位置之外的其他文件夹中，请确保文件夹路径或文件夹名称中没有空格。这是一个已知问题。将在以后的版本中修复。如果安装在多次尝试后仍然失败,请在尝试安装之前删除以下文件夹:C:\Users\<username>\AppData\Local\NVIDIA\RAG。

4、安装步骤

双击 setup.exe 文件启动安装程序。该安装程序将通过验证您的系统是否具有兼容 GPU 来检查系统兼容性。

您可以选择默认的安装文件夹，也可以单击"浏览"按钮并选择自定义文件夹位置来选择其他文件夹。

如果安装过程中弹出网络提示，请选择“允许访问”。

安装完成后，将创建一个桌面图标，并且应用程序将自动启动。

初始化完成后，浏览器窗口选项卡将自动打开，显示如下图所示的 ChatRTX 用户界面。同时，后台还会弹出一个 Windows 命令提示符，显示错误日志。

5、开始聊天

以下是对话内容。

用户：你好

机器人：Hello! How can I assist you today?

用户：请用中文回答，你是谁？

对话机器人：我是一个人工智能助手，专门为用户提供帮助。我可以回答任何问题，但我的回答是基于我所知的信息，如果你有任何问题，请告诉我，我会尽力回答。

用户：翻译这段话：“ChatRTX is a demo app that lets you personalize a GPT large language model (LLM) connected to your own content—docs, notes, images, or other data. Leveraging retrieval-augmented generation (RAG), TensorRT-LLM, and RTX acceleration, you can query a custom chatbot to quickly get contextually relevant answers. And because it all runs locally on your Windows RTX PC or workstation, you’ll get fast and secure results.”

对话机器人：这段话描述了一款名为ChatRTX的演示应用，该应用允许您将自己的内容（文本、笔记本、图像等）与一个大型语言模型（LLM）连接起来，从该模型中快速获取相关的答案。ChatRTX利用检索增强生成（RAG）、TensorRT-LLM和RTX加速来实现这一点。因为它所有运行在您的Windows RTX PC或工作站上，因此您可以获得快速且安全的结果。

用户：什么是检索增强生成？

对话机器人：检索增强生成（Search Enhancement Generation）是一种人工智能技术，用于在大规模数据集中搜索和提取相关信息。它通常涉及使用机器学习算法和深度学习模型来分析和理解数据，然后利用这些模型生成更加准确和相关的搜索结果。检索增强生成可以应用于各种领域，包括文本搜索、图像搜索、音频搜索等。

用户：英伟达 GTC 2024 发布的 Blackwell 架构有哪些特色

对话机器人：The context information does not provide any information about the Blackwell architecture that was released at NVIDIA's GTC 2024 event. Therefore, I cannot provide an answer to the query.

用户：英伟达 B100 硬件参数详情？

对话机器人：The NVIDIA B100 is a graphics processing unit (GPU) designed for data center and artificial intelligence (AI) workloads. It is based on the Volta architecture and is equipped with 5,120 CUDA cores, 640 Tensor Cores, and 32 GB of HBM2 memory. The B100 is capable of delivering up to 336 TFLOPS of FP32 performance and up to 1.3 PFLOPS of FP16 performance. It is designed to handle large-scale AI workloads and is used in a variety of applications, including deep learning, high-performance computing, and autonomous vehicles（该内容存在错误，请勿轻信）.

用户：2024 可以表示为哪些素数的乘积？

对话机器人：2024 可以表示为 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2 x 2（该内容存在错误，请勿轻信）

应用程序将默认使用 Mistral (具体为 Mistral 7B int4)模型和包含一些 GeForce 新闻文章的默认数据集文件夹。您可以与此新闻文章集合交谈并询问问题，或者将应用程序指向您自己的数据文件夹。
该应用目前适用于 .txt、.pdf 和 .doc 文件格式。
您可以通过单击标记为"选择AI模型"的选择框来选择您已安装的其他与 TensorRT-LLM 兼容的模型(例如 Llama 2 7B int4)
您可以通过单击"添加新模型"选项并从可用列表中选择模型，将 AI 模型添加到应用程序中。这将下载AI模型到您的本地系统
您可以通过单击显示当前数据文件夹路径的行旁边的笔形图标，并导航到所需文件夹来指向您选择的数据集。默认数据集(在首次启动时加载的数据集)是最近发布在 GeForce 新闻上的一些文章样本。UI 上也提供了针对此数据集的示例问题按钮。
当选择新的数据文件夹时，应用程序必须使用您选择的文件夹中包含的文档重新创建数据集向量嵌入。这一过程所需的时间将因文件夹中文件的大小和数量而有所不同。
应用程序重新创建了向量嵌入后，您就可以与这个新数据集交谈。
如果您向之前选择的文件夹添加了新文件，则需要重新生成该文件夹的向量嵌入。添加文件后,通过单击"数据集"单元格右侧的"刷新"图标来重新生成嵌入。

注意:响应的准确性和相关性由询问的问题的特异性、使用的AI模型的准确性以及数据集的准确性决定。

6、不使用数据集使用 ChatRTX

应用程序使用一种叫做检索增强生成(RAG)的技术来查找您指向的本地文件,并使用该信息在将您的问题提交给 LLM 时提供上下文。禁用 RAG 将导致 LLM 仅基于最初训练它的数据生成响应。为了看到 LLM 在没有 RAG 的情况下会如何响应，您可以通过从右侧下拉菜单中选择"AI 模型默认值"来禁用 RAG(见下图)

7、使用 CLIP 视觉和语言模型

除了预安装的 Mistral LLM 模型外，您还可以从"添加新模型"选项下载并安装 CLIP 视觉和语言模型。安装该模型后，您可以将应用程序指向您的 jpeg 图像文件夹并与您的图像聊天。这些图片不需要标记。您可以提出诸如"显示有猫的图像"、"显示户外拍摄的图片"、"显示有花的图像"等问题。您的问题得到的响应准确性取决于 CLIP 模型的训练和准确性。

8、使用语音输入您的问题

ChatRTX 的这个版本还集成了进行音频到文本转换的 Whisper 模型。要使用此功能，请确保您系统上的麦克风已启用，然后单击"麦克风"图标并提出您的问题。提问完毕后，单击"停止"图标停止录制。应用程序将识别并在聊天窗口中输出您的问题。然后您可以单击"发送"将文本呈现给 LLM 以获得响应。Whisper 模型支持多种语言，如法语、西班牙语、普通话等。

9、关于查询结果的指南

ChatRTX 将数据加载到向量库中时，会将其分解为数据块(您可以将其视为文档中的一个段落)，这些数据块是根据其相关性选择的，用于 formulatesform 响应查询。此存储数据方法使 ChatRTX 适合那些请求信息覆盖数据集中少数几个数据块的查询，但不适合那些需要一次性对整个数据集进行推理的查询。例如，询问几份文档中涵盖的一些事实可能会比询问文档或一组文档的摘要获得更好的结果。

与大多数AI用例一样,响应质量往往会随着数据量的增加而提高。将 ChatRTX 指向有关特定主题的更多内容往往会产生更好的响应。

10、关闭应用程序

要关闭应用程序,请单击应用程序右上角的电源按钮图标。这将关闭应用程序。在命令提示符窗口中,请按键盘上的任意键以关闭应用程序后端。

11、已知问题和限制

当前版本存在以下已知问题:

该应用程序目前适用于Microsoft Edge和Google Chrome浏览器。由于一个bug,该应用程序无法与FireFox浏览器一起使用。这将在以后的版本中得到修复。
该应用程序不记住上下文。这意味着后续问题不会基于之前问题的上下文作出回答。例如,如果您之前问过"RTX 4080 Super的价格是多少?"随后又问"它的硬件规格是什么?"应用程序将不知道您正在询问RTX 4080 Super。
响应中对源文件的归属并不总是正确的。这将在以后的版本中得到改进。
我们观察到在某些情况下,应用程序会陷入无法通过重新启动解决的无法使用状态。这通常可以通过删除preferences.json文件(默认位于C:\Users\<user>\AppData\Local\NVIDIA\ChatWithRTX\RAG\trt-llm-rag-windows-main\config\preferences.json)来修复
在极少数情况下,如果重新安装失败,请尝试删除安装目录(默认位于C:\Users\<user>\AppData\Local\NVIDIA\ChatWithRTX)
如果您选择将应用程序安装在默认安装位置之外的其他文件夹中,请确保文件夹路径或文件夹名称中没有空格。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业