微信扫码
与创始人交个朋友
我要投稿
掌握AI技能,快速入门SaaS应用开发! 核心内容: 1. 初学者学习AI的路径和工具介绍 2. 大型语言模型(LLMs)和API提供者的详细解读 3. 如何构建、部署并货币化SaaS应用程序
想象一下,完全独立构建、部署甚至货币化 SaaS 应用程序,但你不知道从哪里开始。本文主要面向寻找指南或课程的初级开发者,将介绍一些关键概念、工具和策略,帮助你入门。
和往常一样,我将文章组织成几个大类别和主题,这些内容并不需要按顺序阅读,所以如果你已经熟悉某些概念,可以随意浏览和跳过。然而,根据我的经验,我强烈建议在尝试独立构建整个 SaaS 应用之前,先了解每个类别的基本概念。
学习LLMs的最佳起点可能是OpenAI ChatGPT模型的创始人之一Andrej Karpathy的传奇视频教程——
这段一个小时的视频非常值得观看,以全面理解Transformer模型是什么,以及如果你决定并且有资源自己构建,LLMs是如何构建的。
一旦你对 LLM 及其最常见的对话信息合成用例有了基本了解,就可以开始探索大型 LLM 提供者所提供的 API。首先通过实验不同的 API 来理解它们的能力和潜在应用。在撰写本文时,有几家商业和开源模型提供者提供 API,因此下面的列表并不是 100% 完整,但应该能让你对市场有个大致了解。
概念 — 大多数 LLM 提供者都有几种不同的模型可供按需使用的 API。这些模型通常被分类为嵌入模型、补全(文本到文本)、语音转文本、文本到图像等,并且通常按模型的大小定价,因为使用大型模型进行推理需要更多的计算资源,因此价格更高。此外,大多数提供者还提供一个 Playground,您可以在其中尝试不同模型的提示和结果,并调整温度等配置。
OpenAI: 以其尖端模型如 GPT-4 而闻名,提供强大的 API 集成。在过去一年中,它增加了许多构造,变得比以往更复杂。它有组织、项目的概念,计费在每个层级。您可以按组织和项目分配用户和密钥。他们还提供了助手 API(更像是一个代理,稍后我们会讨论)和实时 API,允许构建可以接收语音并在几毫秒内以音频或文本格式立即返回结果的模型。请记住,截至目前,实时 API 可能是最昂贵的。
AWS 和 Google — AWS(Bedrock)和 Google(Vertex AI)都有以下版本的模型目录,您可以选择自己的模型,微调一些模型,部署这些模型并将其连接到工具或 API。AWS Bedrock 还具有代理和代理编排的概念,您可以使用这些来构建类似微服务的自主 AI 应用。
我还应该提到,Google 的新 AI Studio 现在有新的工具,可以通过浏览器“看”和“听”您(当然需要您的许可),因此您可以围绕培训构建应用程序,甚至自动化重复任务,而无需任何复杂的自动化工作流程。
尽管 AWS 确实有自己的 LLM,但它主要提供 Anthropic 模型,这些模型在编码任务中可能是最好的。Google 在 2024 年 12 月发布了 Gemini 和 Flash 模型,性能与 Claude 3.5 相当,但成本更低。
Anthropic: 说到 Claude,我最喜欢的 LLM 提供者之一是 Anthropic,它有三个基于大小的广泛模型类别——Haiku(最小)、Sonnet(中等)和 Opus(大型)。在所有这些模型中,Sonnet 3.5 在代码生成方面一直是冠军。此外,它最近增加了两个突破性的新功能——计算机使用工具和模型上下文协议(MCP)服务器。通过这些 API,作为开发者,您现在可以构建能够使用用户计算机浏览器代替用户执行任务的应用程序。
Hugging Face: 这是迄今为止最大的一个平台,适合以具有成本效益的方式查找、微调和部署您自己的开源模型到私有实例。您可能选择这样做的原因是,对于某些任务和用例,您可能需要更小、更便宜且私有托管的模型。在开源领域,Meta 的 Lllama 系列模型在行业基准中被认为是最好的。
本地模型: 最后,我还应该补充,如果你和我一样,有时会发现自己没有互联网,例如在长途飞行中,您应该考虑本地运行模型。我最喜欢的两个是 Ollama 和 LMStudio。两者都允许您在本地下载模型,并将其作为本地主机端点运行,您可以像调用任何 LLM 一样从代码中调用它们。不过我需要提醒的是,要运行超过 32B 参数的模型,您需要一台配备足够 GPU 和内存的 decent 笔记本电脑。
每个提供者都有针对不同用例量身定制的独特功能。比较成本、微调选项和可扩展性将帮助您为项目选择合适的提供者。
现代 LLM 正在发展以直接处理结构化 API 调用。这使得自动化任务变得更加顺畅,例如预约、查询数据库或管理工作流程。函数调用弥合了 AI 与传统 API 之间的差距,使集成更加直观。
对于寻求定制的开发者来说,微调开源 LLM 是一个游戏规则的改变者。像 LLaMA、Falcon 和 GPT-J 这样的模型使开发者能够构建特定领域的应用程序。Hugging Face 和 LangChain 等工具简化了微调和部署过程,能够实现高效的扩展。
OpenAI及其他模型提供商去年发布的功能之一是函数调用。这使得大型语言模型(LLMs)能够回调应用程序中的函数,从而获得运行代码的权限,因此变得“具有代理能力”。这个功能现在已经发展为工具,您可以将多个工具整合到一个构造中,并附加特定的LLM,现在您就拥有了代理。如果您对这个主题感兴趣,可以阅读关于7因素应用的文章,链接在这里 -> https://readmedium.com/the\-7\-factor\-enterprise\-ai\-app\-4528d02d0e83
在 Python 和 JS/TS 中,有几个框架可以通过简单的基于字典的接口构建代理。以下是一些框架。当选择时,我建议选择一些在以确定性和可控的方式协调代理方面具有强大功能,并且具备追踪和调试功能的框架。
当然,还有许多其他框架,你应该根据自己的需求进行选择,但这一组框架应该能帮助你更广泛地理解这个领域。
RAG 结合了 LLM 的强大功能与实时、特定领域的数据检索,以根据 LLM 不“了解”或未经过训练的数据响应查询或采取行动。这种方法确保 AI 输出既准确又与上下文相关,特别是在企业中,存在大量 LLM 未用于训练的数据。应用案例包括个性化客户支持、动态内容生成和实时知识检索。
从本质上讲,RAG 涉及搜索结构化数据(如 JSON 或 SQL 数据)和非结构化数据(如 PDF 文件、图像、视频)。对于非结构化数据,通常将其分成一些重叠的块,然后将其转换为向量,这些向量基本上是在多维空间中表示这些对象的浮点值。例如,“狗跳过干草堆”可能变成 (0.234, 1.343, 2.343, 1.334….)。通常将其存储在内存中以用于某些短暂的用例或在向量数据库中。要搜索这些向量,您首先将查询转换为嵌入/向量(使用嵌入模型),然后进行语义搜索,例如点积,以查看数据库中的哪些对象与查询相似,然后将该数据块作为上下文传递给 LLM。
您还可以查看我去年写的更详细的向量数据库比较 — https://readmedium.com/the\-ultimate\-guide\-to\-vector\-databases\-2024\-and\-beyond\-16dfb15bef12
正如您所想,当您开始存储大量向量时,您需要考虑如何存储和检索它们,在企业中,您还需要考虑检索其他类型的数据。目前存在一些仅支持向量的数据库,包括开源和商业版本,如 Pinecone、Weaviat、Mivuls 等,但如果您正在寻找能够通过单次查询(如 SQL、JSON、Vector 等)存储和搜索所有数据的数据库,请考虑使用 SingleStore、Elastic 或 AWS 的 Opensearch 等数据库。
一旦您理解了 RAG 的基本知识,您可以进一步探索一些额外的主题。
现在让我们转到下一个主题,学习如何使用 AI 实现 10 倍的编码和开发。您可能并不需要所有工具,但我仍然列出了它们,以便您可以根据不同的项目、用例和需求进行选择。
信不信由你,在过去两年中,AI编码工具经历了看似十年的变化。最初,我们有像Microsoft Co-pilot这样的工具,帮助进行代码补全。但现在我们已经转向两个VS Code IDE,它们不仅可以进行代码补全,还可以与它们聊天讨论代码,并且它们还具有基于代理的交互,可以代表您执行操作,如创建新文件和运行终端命令,包括安装新库和包。这些工具是Cursor和Windsurf。两个工具还让您能够使用单独的文件或选择整个代码库作为上下文。
我强烈推荐下载这两个产品的免费版本,并尝试不同的用例。
我还应该提到,Claude及其工件在生成代码和小应用程序方面也非常出色,您可以在浏览器中测试这些应用程序,然后将它们引入您的代码库进行进一步迭代。此外,现在OpenAI和Claude也帮助创建基于mermaid的架构和流程图,使得可视化和迭代您的应用程序变得更加容易。
我还应该补充一点,这里出现了一种新兴趋势,一些工具承担了初级开发人员的全部角色,费用在每月500美元到4000美元之间(不是打字错误)。使用这些工具,您可以创建功能并要求它们构建这些功能,这些工具将进行Pull Requests并构建整个功能(大约每周两到三个),并检查代码和文档。这些工具包括Devin(具有不寻常的Slack集成)和Tempo Labs(基于浏览器的界面)。
如果您正在构建一个全栈应用程序,过去依赖视觉设计师先构建用户交互,然后是线框图,最后是屏幕的日子已经一去不复返了。如果您希望独立构建应用程序的线框图和屏幕,这里有一些您应该熟悉并开始尝试的工具。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-09-26
2024-10-30
2024-12-25
2024-10-30
2024-09-03
2024-09-06
2024-08-18
2024-11-23
2024-09-02