我要投稿

医生的黑匣子 - 医疗保健大模型&生成式人工智能（下一个前沿）

发布日期：2024-04-23 07:06:27 浏览次数： 2621 作者：知识图谱科技

这是书籍终版的第1章，GitHub仓库稍后将被启用。

在C.M. Kornbluth的书《小黑匣子》中的虚构人物Dr. Full偶然发现了来自未来的神秘医生包。那个装满先进医疗工具和药物的包，让Dr. Full变成了一名更加能干的医生。当他进一步探索包里的内容时，他发现了一个充满知识和能力的宝库，这些不仅提高了他的医疗实践，也点燃了他对未来医疗可能性的好奇心。每治疗一个病人，每做出一个诊断，Dr. Full都发现自己站在医疗创新的前沿，这一对未来的窥见永远改变了他，使他置身于医学科学看似无界限的未来。如今，临床医生在比喻性地发现一个未来的‘黑匣子’——特别是为医疗目的设计的大型语言模型。本章探讨了使用专为临床医疗设计的大型语言模型应用程序和应用来改善临床医疗的可能性。

大型语言模型和生成性人工智能的潜力

大型语言模型（LLM）是一种在大规模文本数据集上训练的机器学习模型，它预测令牌或令牌序列的概率，建模出复杂的语言表达和知识。LLMs明确模拟了单词与含义之间在扩展上下文中的关系，使文本理解和生成更加流畅。它们庞大的数据集规模和模型参数化使它们与更基本的语言模型区别开来。第二章将更详细地探索LLM的工作原理，包括令牌、参数等内容。

尽管现有的医疗大型语言模型（LLMs）已经令人印象深刻，但它们仍处于发展的早期阶段，预备将彻底革新医疗服务的提供方式。目前，重点主要放在减少临床医生的管理和文档工作负担上，但这只是LLMs能如何转变医疗行业的开始。目前这一代LLMs在几年内可能看起来很原始。随着LLMs和AI技术的发展，期待更多令人印象深刻和变革性的应用出现。

截至本文写作之时，已经有若干针对医疗的特定LLMs被推出，但由于几个原因，它们并未对临床医疗产生显著影响

数据可获取性和质量：LLM是在大量数据上训练的，而这些数据的质量对它们的性能至关重要。在医疗领域，数据经常分散在多个来源，例如电子健康记录、医学期刊和临床试验中。此外，数据可能是不完整的、不准确的或不一致的，这可能会对LLM的性能产生负面影响。
偏见和公平：LLM是根据反映现实世界偏见的数据进行训练的。这意味着它们可能会延续和放大医疗保健领域现有的偏见，导致特定患者群体受到不公平对待和结果。例如，基于针对某些种族或族裔群体存在偏见的医疗记录数据集进行训练的LLM可能生成同样具有偏见的建议。
可解释性和可解释性：LLM经常被认为是“黑匣子”，因为它们的内部运作复杂且难以理解。这种缺乏可解释性和可解释性使得医疗专业人员难以信任和采用LLM来进行决策。如果不了解LLM是如何得出推荐意见的，那么基于有缺陷或带有偏见推理的决策就存在风险。
监管格局：医疗领域人工智能的监管格局仍在不断发展，目前尚无明确的指导方针或标准来开发和部署LLM。这种不确定性可能会使医疗机构难以采用LLM，因为他们可能担心潜在的法律和监管风险。
伦理考虑：在医疗保健领域使用LLM引发了一些伦理考虑，例如可能被滥用的潜力、人类自主权的侵蚀以及对患者隐私的影响。在LLM在医疗保健领域被广泛采用之前，这些伦理考虑必须得到仔细解决。

尽管存在这些挑战，人们越来越关注LLMs在改善医疗保健提供方面的潜力。研究人员正在努力开发更强大和可靠的LLMs，医疗机构正在探索将LLMs整合到其工作流程中的方法。一些新兴的LLMs示例包括：

Med-PaLM：来自Google AI的大型语言模型（LLM），经过大规模医学文本和代码数据集的训练。Med-PaLM能够执行各种医学任务，包括回答问题、解释图像、生成放射学报告和调用基因组变异。Med-PaLM2是支持MedLM1的研究模型之一，MedLM是一组为医疗保健精细调整的基础模型。
Flan-PaLM：来自Google AI的540B参数LLM，经过大量代码和医疗数据的训练。Flan-PaLM在各种医学基准测试中取得了最先进的性能，包括医学语言理解评估（MLUE）和MultiMedBench。
BioGPT-JSL：来自John Snow Labs的医学LLM，经过生物医学文献、科学论文和临床数据的大规模数据集训练。BioGPT-JSL能够执行各种医学任务，包括生成临床报告、总结医学文献和回答医学问题。
ClinicalBERT：来自Google AI的医学LLM，经过临床文本的大规模数据集训练，包括电子健康记录（EHRs）、临床笔记和医学报告。ClinicalBERT能够执行各种医学任务，例如识别医学实体、分类医学文本和生成医学报告。
PubMedBERT：来自国家医学图书馆（NLM）的医学LLM，经过PubMed的生物医学文献大规模数据集的训练。PubMedBERT能够执行各种医学任务，例如回答问题、总结文本和提取关系。

他们仍需努力才能持续超越最技艺精湛的医疗专业人士的专业水平，不过将大型语言模型作为医患关系中的第三要素进行整合依然拥有巨大的潜力，这些潜力涵盖了从协助诊断、记录、到病患沟通等方面。

每一个需要人类从医疗编码、患者教育、诊断、患者接待、治疗规划用药管理等创造原创作品的临床和行政医疗流程都有可能被重构。

Bard和ChatGPT作为生成型AI产品并不代表大型语言模型的全部，但它们展示了面向消费者的例子，显示了LLMs的能力。假想LLMs是一片广阔的海洋，而Bard和ChatGPT是两座岛屿，这些岛屿美丽且令人激动但它们只代表了海洋多样性和丰富性的一小部分。简而言之，Bard和ChatGPT是LLMs能力的优秀范例但它们只代表了这项技术潜力的一小部分。

得益于平台层的成熟、模型的不断改进，以及免费和开源模型的越来越多的可用性生成型AI应用正在开始崭露头角。这为开发者、创业公司和企业提供了他们构建创新应用所需的工具。正如移动设备催生了带有新性能如传感器、相机，以及随时随地连接能力的新型应用程序，大型语言模型正准备引领一波新的生成型AI应用程序和设备，以用于医疗保健领域。

如今，琳琅满目的医疗季节设备以帮助我们优化生活，从健身追踪器到血压监测器再到智能胰岛素泵，我们喜欢将这些设备佩戴在身上以使保持健康和控制我们的状况更加容易。

使用谷歌的互联网搜索仍然是消费者的最爱，一些人将其形容为“谷歌医生”来了解他们的症状和诊断。然而证据确凿表明互联网搜索对诊断准确性的提高微乎其微对分诊准确性几无帮助。接下来几年，随着互联网搜索和LLMs的融合，LLMs将改变这一方程式。随着基于LLM的应用程序和小工具的到来，我们将对诊断的准确性以及在分诊情况中的使用产生更大的影响。

LLM驱动的医疗小工具可能会彻底改变我们管理健康和接受护理的方式，LLM驱动的聊天机器人将回答我们有关健康的问题，LLM驱动的诊断工具将帮助医生更准确地诊断疾病，临床医生可以使用医疗LLM来制定个性化治疗计划并监测患者进展。

大型语言模型将彻底改变消费者和患者如何导航他们的健康和医疗保健系统，通过提供个性化的见解、建议和支持，LLMs能够使患者和消费者承担更大的自我健康责任并就其医疗保健做出明智的选择。

例如 LLMs将用于为消费者和患者动力驱动的Copilot

个性化健康教育：LLM为消费者和患者提供关于其健康状况、治疗选择以及预防策略的个性化教育。临床医生可以根据个体的特定需求和偏好进行定制，并在个体健康状况变化时进行更新。
医疗决策支持：LLM帮助消费者和患者做出关于他们护理的明智决定。LLM协助患者和消费者做出对他们的医疗保健有见识的选择。例如，他们可以比较各种治疗选择，评估每个选择的优势和劣势，并预测与不同结果相关的概率。
导航辅助：LLM帮助消费者和患者在复杂的医疗系统中寻找合格的提供者、安排预约并了解保险覆盖范围。
情感支持：LLM支持消费者和患者的情感健康。LLM可以倾听关切，提供鼓励，并将患者联系到面临相似挑战的其他人。

LLM将改变消费者和患者与医疗系统的互动方式。通过提供个性化见解、建议和支持，大型语言模型可以使患者和消费者承担更大的健康责任，并就他们的医疗做出明智选择。

在实践中，LLM驱动的Copilot的一些例子包括：

患有慢性健康问题的消费者可以使用LLM驱动的副驾驶来跟踪其症状，管理药物，并获得关于保持健康的个性化建议。
面临困难医疗决定的患者，比如是否接受手术，可以使用LLM驱动的副驾驶来权衡每种选择的风险和益处，并从一个可信赖的来源获得个性化建议。
照顾患有复杂健康问题的爱人的照料者可以使用LLM驱动的副驾驶来管理约会，与不同提供者协调护理，并获得支持和指导。

LLM们正准备拉平竞技场，为顶尖医疗信息和援助提供更加广泛的获取途径。这种增加对健康见解的可及性不仅会让患者和消费者理解自己的健康状况，还会使他们在医疗方面做出明智的选择。它还将帮助医疗专业人员和更广泛的医疗系统提升整体民众的健康与福祉。问题不仅仅是LLM能为我们做什么，而更重要的是我们如何利用LLM和生成式人工智能来提升我们的健康与福祉。问题并非在于LLM会对我们产生什么影响，而是我们如何利用LLM和生成式人工智能来改善我们的健康与福祉。接下来的章节描述了一些未来的应用程序。

在医疗健康领域的LLM的希望和可能性

每年全球有八百万人因无法获得更好的医疗保健而死亡。大型语言模型和生成式人工智能为挽救人类生命和全球改进医疗保健带来了奇妙的机遇。大型语言模型中新兴的能力是指在获取越来越大规模的医疗和医学相关文本与代码数据集的培训后，LLM表现出的新的能力。随着越来越多的医疗和医学数据被用于训练规模不断扩大的大型语言模型，与这些模型涌现的新临床能力并非最初程序设计，而是从扩展的训练中呈现出来。随着这些模型在更多多样化的医学概念和规模的互动中暴露，新的与医疗推理、治疗建议、流行病学分析和个性化护理相关的意想不到的能力正在有机地发展。这些新兴能力证明了大型语言模型在医疗领域具有蓬勃发展潜力的力量，因为跨多种形式的医学知识被融入到先进的模型架构之中。

这些能力难以预测或解释，但将有益于医疗应用。它们的新兴能力可能会革命化医疗保健，影响整个地球的想象范围之外。让我们探索一些未来的应用：一个医疗瑞士军刀和一个医疗导游。医疗瑞士军刀是一个面向消费者的工具，而医疗导游是面向临床医生的。

医疗瑞士军刀应用程序

一家人工智能初创公司推出了一款名为医疗瑞士军刀的医疗特定大型语言模型所驱动的医疗应用程序。医疗瑞士军刀应用程序为医疗环境中的消费者或患者提供了多功能性和多功能性的能力。75岁的大卫热爱他的Fitbit可穿戴设备。他接收到一份检测房颤（AFib）的信号并联系了他的医生，医生将他转诊给心脏病专家。大卫服用药物控制高血压和他汀类药物控制胆固醇。大卫最近做了一次钙评分测试，显示他处于高风险类别。他的心脏病专家建议进行房颤消融手术，但未能解决问题。大卫再次入院让心脏接受有控制的电击和心脏复律以恢复正常心率，但未能成功。

大卫的妻子对他的家庭医生和当地心脏病专家的答复感到不满，他们表示他没有心血管疾病的任何症状，比如呼吸急促或疲劳。她知道他的身体活动很少，有点超重，患有持续性房颤，还有药物治疗之前，他患有高胆固醇和高血压。她还知道他的钙评分测试显示他处于高风险类别。她说服大卫使用医疗瑞士军刀应用程序。该应用程序使用医疗特定的LLM以及具有大卫医疗记录、病史和健康信息的LLM。该应用程序建议去一家著名的研究医院，并识别一位精通房颤治疗的医生来治疗他的房颤。

大卫同意了，医疗瑞士军刀应用程序安排了预约、机票预订和酒店安排。然后，大卫与医疗瑞士军刀应用程序进行交流，因为他想了解应该询问什么问题。应用程序建议：

鉴于我的情况，什么是最佳的治疗方案？
可用的不同治疗选择是什么，各自的风险和好处是什么？
我的房颤如何影响我的心脏？
我中风的风险有多大？
如果我出现房颤发作，我该怎么办？
房颤对生活的长期影响是什么？

该应用程序的开发由一家信誉良好的公司进行，采用先进的安全措施来保护患者隐私。该应用程序的设计力图避免对话的误解或提供不准确的信息。

利用大量丰富多样的数据集来训练LLM：LLM在医学对话的大型多样化数据集上进行训练。这有助于LLM学习医学语言的细微差别，避免出现错误。
使用最先进的自然语言处理技术：该应用程序采用先进的自然语言处理（NLP）方法有效理解对话。这进而协助LLM准确定位话语的关键要素，避免作出不受支持的推断。
整合医生和患者的反馈意见：该应用整合来自医生和患者的反馈意见，以提高LLM的准确性。这种持续的反馈循环有助于确定LLM存在困难的领域，并进行必要的调整。
向用户提供透明度：该应用向用户提供关于其工作方式和使用其数据的透明度，帮助用户了解应用的局限性，并负责任地使用它。

LLM医学瑞士军刀应用程序提醒David，它不能取代他的房颤医生的医疗建议。它告知David，他在做出关于自己护理的决定之前，应始终与医生咨询。David和他的妻子飞行2000英里，入住推荐的医院旁边的酒店。当心脏病医生打电话并询问是否可以过来打个招呼时，他们俩立即留下深刻印象。这种个人服务超出了他们的期望。在医生会诊之前，David打开了医学瑞士军刀应用程序，查看他想问的问题。应用程序提示David是否希望应用程序聆听对话。David告知医生，他正在使用一款LLM应用程序，该应用程序将聆听他们的对话，并帮助David在之后更好地理解对话。医生微笑着说当然，并提醒David，在手术前随时乐意回答任何问题。

现在是周一，是为进行预操作CT扫描，准备使用隔离协同消融夹治疗房颤的时间了。CT扫描显示他的主动脉严重阻塞，心脏病医生告诫David，他患有心脏病发作的高风险，以至于他需要进行心脏开放手术。考虑到阻塞，进行房颤消融的风险太大了。

David开始与他的医学瑞士军刀应用交谈，询问他的当地医生是否应该发现这个阻塞。应用告知David，进一步的检测可能不合理，因为他没有报告任何症状。它建议他在有空时向他的主治心脏病医生和当地医生提出同样的问题。

如果没有使用医学瑞士军刀应用程序，David将仅与当地心脏病医生互动，不知道自己心脏病发作的高风险。该应用的重要好处是建议David去看一位备受尊重的房颤专家。

David预期接受的手术本应是三到四个小时，但实际上花了六个小时。医生完成手术并告诉David的妻子Ann发生了什么。他指出David手术花了六个小时而不是四个或三个的原因是他有身体方面的异常，导致血液从肺部流向心脏的方式医生从未见过，也没有他认识的其他人见过。

医生强调他已经做这个工作几十年了，甚至与患先天性心脏病和出生异常的婴儿合作，但从未见过类似的情况。他们花了一些时间试图查明问题所在，但他们使用的不是一个循环泵，而是三个，这还远远不够。我们不能不提到安（Ann）为何对医疗瑞士军刀LLM医疗应用如此有信心。四年前，她被诊断患有CLL白血病。周一，她有一个与肿瘤学家的约会，并在前一个星期四接到女儿的电话。她的女儿是医疗瑞士军刀应用的活跃用户。该应用建议她的母亲在癌症研究医院而非她原计划接受治疗的当地医院能获得最佳效果。她母亲对推迟约会并不太情愿，因为她喜欢她的肿瘤学家，并且与研究医院相比，当地医院距离较短。但她屈服了，取消了约会，并预约了研究医院的肿瘤学家。

研究医院提出了稍有不同的治疗方案，其中包括最近上市的FDA药物，IMBRUVICA®。安对结果感到相当满意，目前她的癌症处于缓解状态。她归功于她的女儿和该应用将她引领到一个能产生更好CLL白血病结果的护理设施。安明白临床结果可能由于医生而大不相同，她为能让她的丈夫大卫与治疗AFib的专家联系感到高兴。她坚信这拯救了她丈夫的生命。毫无疑问，发布研究结果的医疗机构获得了提高的病人满意度分数，并在各种医疗条件和手术中降低了患者死亡率。

通过利用医疗提供者临床结果的丰富数据，由大型语言模型驱动的医疗瑞士军刀应用能够将个体患者与统计学上最可能为患者的特定病况和风险因素提供最有效治疗的医生匹配起来。

医疗智多星应用

亨利已经是一名初级保健医生超过20年，什么情况都见过。但是当他的患者约翰前来进行例行身体检查时，亨利注意到了让他停下来的东西。约翰的喉咙旁边有一个小肿块。“约翰，”亨利说，“我想仔细查看你喉咙上的那个肿块。”约翰点了点头，亨利轻轻地让他把头仰起来。他用手指触摸了一下肿块，并皱起了眉头。这个肿块坚实且固定，当亨利按压时不动。“我担心这个肿块可能是癌症，”亨利说。“我建议去看专家进行进一步评估。”约翰看起来很担心。“但我感觉很好，”他说，“我没有其他症状。”“要记住，在早期阶段癌症通常是无症状的，”亨利说。“这就是为什么定期检查如此重要。”约翰勉强同意去看专家，亨利为他安排了下周的约会。

但亨利无法摆脱一种错误的感觉。他决定咨询他的医疗智多星，这是一个可以获取和处理大量医学知识的LLM应用。亨利向他的医疗智多星描述了这个肿块，LLM应用很快给出了几个建议。其中一项行动方案包括要求进行细针抽吸（FNA）活检，这是一种从肿块中提取细胞样本的微创手术。另一项建议是将约翰转介给喉鼻咽专家，这是一位专业从事耳鼻喉疾病诊断和治疗的专家。亨利决定听从医疗智多星的建议。他为约翰进行了FNA活检，并将他转诊给喉鼻咽科医生。几天后，亨利收到了FNA活检结果。结果显示肿块为癌症。亨利打电话告诉约翰这个消息。约翰感到沮丧，但也感激亨利早期发现了癌症。亨利向约翰确认是否可以让他的医疗智多星与约翰合作，安排与喉鼻咽科医生讨论治疗选择的约会。由于亨利的迅速反应和他使用医疗智多星，约翰得到了他所需的抗击癌症的护理。

医疗智多星是供医生寻求咨询的LLM应用，这在医学中是一个相当常见的做法，被描述为走廊、电梯或路边咨询。医疗智多星应用是指临床医生与LLM之间快速而不正式的咨询。术语“智多星”之所以被使用，是因为像那些帮助登上珠穆朗玛峰的向导一样，医疗智多星帮助临床医生穿越复杂的医学领域。

智多星可以为请求的提供者提供专业见解、建议和资源。典型咨询主题的例子包括：

药物相互作用：医疗智多星可以帮助提供者识别和管理潜在的药物相互作用。
剂量调整：医疗智多星可以帮助提供者确定特定患者的正确药物剂量。
治疗选择：医疗智多星可以帮助提供者制定和评估对于患有复杂医学病况的患者的治疗计划。
鉴别诊断：医疗智多星可以帮助提供者缩小对于呈现复杂表现的患者可能诊断的范围。
检测结果解读：医疗指南，也就是医疗智多星，可以协助医疗专业人员解读实验室检查和医学影像的结果。

使用医疗助手有几个好处。首先，它们在增强临床医生的护理质量方面发挥着至关重要的作用。他们通过为医护人员提供专业指导和支持，使其能够做出更加审慎的决定，关乎患者的医疗保健。

其次，医疗助手可以帮助医护人员节省时间。通过为医护人员提供获取建议和支持的快速简便方式，医疗助手可以释放出医护人员的时间，让他们专注于其他任务。

第三，医疗助手可以帮助减少医护人员的倦怠感。医疗助手可以通过为医护人员提供帮助和指导，使其在工作中感到更有信心和支持。

尽管由LLM技术驱动的应用程序因其直观的界面和出色的功能而让用户赞叹不已，但关键是要看到表面之下。真正的魔法发生在幕后，在支撑这些工具的复杂架构中。这种架构就像一个润滑良好的机器，无缝地编排数据、算法和计算资源。但就像任何复杂的系统一样，设计和构建由LLM技术驱动的应用程序也伴随着一系列挑战。让我们简要描述一下这种架构景观，并探讨塑造这些变革性工具基础的关键考虑因素。

LLM 驱动应用的设计与架构问题

巨大语言模型的出现代表着一种强大的技术进步，准备改变医疗保健和我们日常生活的各个方面。在创建和实施LLM驱动的应用程序时，开发人员必须处理设计和架构方面的考虑。

性能与可扩展性

由于LLMs需要处理大量不同形态的数据，在医疗环境中生成准确且信息丰富的输出，因此它们可能非常耗费计算资源。因此，设计高效且可扩展的LLM应用程序至关重要。以下几种设计选择和技术能够实现这一目标：

使用云计算平台为您的应用程序提供可扩展的基础架构，以及一个方便构建搜索和基于对话的LLM人工智能应用的平台。
使用具有内置功能的云计算平台来创建生成式人工智能代理。

LLMs的计算成本很高，为了确保大用户群体的流畅性能，需要仔细优化资源。这可能涉及分布式计算系统、专用硬件和高效的数据管道。此外，随着LLMs不断发展和学习，体系结构需要具有适应性，能够无缝地集成新功能。

安全与隐私

在设计LLM驱动的应用程序时，必须采取措施保护用户数据，防止未经授权访问LLM。数据泄露和对这些强大语言模型的恶意操作可能导致严重后果，从个人隐私泄露到虚假信息的传播。

因此，安全架构需要从最基本的层面开始嵌入。这包括对用户数据的强大加密、对LLM本身的分层访问控制，以及持续监测潜在的漏洞。此外，数据处理实践的透明度和负责任的培训程序对于与用户建立信任、确保这些技术的合法使用至关重要。

最终，LLM驱动的应用程序的成功在于强大技术、周到设计和负责任的使用的交汇处。通过谨慎地在架构领域中导航，开发人员可以创建能够赋予用户权力的转变性工具，同时保护他们的数据和这些智能系统的完整性。

道德与偏见

LLM可能存在偏见，其输出可能会被用来伤害或冒犯人们。因此，设计LLM推动的应用程序以减轻偏见，并防止LLM被用于有害目的至关重要。这需要采取多管齐下的方式。首先，数据选择和策划至关重要。偏见往往通过训练数据悄然渗入，因此谨慎的选择和过滤对于最大限度地减少其存在至关重要。像去偏算法和多样化数据来源的技术可以帮助解决这个问题。

其次，算法公平需要得到优先考虑。在LLM开发过程中的设计选择可能会影响其输出的公平性。实施多样化的评估指标，融入像反事实推理这样的技术，定期审计LLM的行为是否存在偏见是至关重要的一步。

最后，需要用户界面保护措施。透明地展示LLM的工作方式以及其能力的潜在局限性至关重要。内置功能允许用户标记或报告有偏见的输出，还要提供反馈和救济渠道，这些是赋予用户力量和避免伤害的关键措施。

解决偏见与潜在滥用需要持续警惕和不断改进。开发人员必须积极与各方利益相关者、研究人员和伦理学家互动，以完善其方法并确保LLM驱动的应用程序不仅设计成技术奇迹，而且作为社会公益之工具。

通过建立安全、高效和负责任的架构，我们可以利用LLM的力量创造一个未来，在这个未来里，这些智能系统不仅可以增强我们的能力，而且可以促进包容性、安全性和负责任的人工智能实践。

总结

LLM 动力应用前路充满着巨大潜力和重大挑战。我们站在一个未来的悬崖边上，在这个未来里，这些智能系统可以解决复杂问题，开辟新的创意途径，并重新塑造我们与世界的互动。然而，克服性能、稳定性和安全性等技术障碍只是第一步。

在技术基础设施之外存在人类的维度。隐私问题给贪婪的数据型 LLM 投下阴影，要求用户信息的透明性和道德监护。编织在训练数据结构中的偏见威胁着延续不平等和不公正，必须保持持续警惕，并采取积极的缓解策略。

当我们踏上这一旅程时，我们必须记住，单靠技术无法建设一个更加美好的未来。负责任的设计，以多元化观点和道德考量为指导，是解锁 LLM 真正潜力的关键。通过精心解决架构问题，并将包容性、透明度和公平性置于优先位置，我们可以确保这些智能系统成为人类赋权和进步的工具，而非伤害或排斥的工具。

LLM 医疗应用的企业架构

图 1-1展示了实现医疗瑞士军刀和医疗领路人应用的架构。我们在这个示例中使用 Google Cloud 产品提供一个可实施的架构。使用云平台构建大型语言模型和生成式人工智能应用至关重要，原因如下：

可伸缩性：云平台提供根据需要扩展或缩减应用的能力。对于 LLM 和生成式人工智能应用来说，这一点至关重要，因为这类应用在计算方面可能会很昂贵。
可靠性：云平台设计得非常可靠。您的应用程序不太可能遇到停机或性能问题。
安全性：云平台提供各种安全功能，可帮助保护您的应用免受网络攻击。
成本：与建立和维护自己的基础设施相比，云平台可能更具成本效益。这是因为云平台允许您根据需要付费使用资源。

除了这些一般的好处之外，云平台还提供了一些专门为构建和部署LLM和生成式人工智能应用程序设计的功能。例如，云平台提供：

预训练的LLM：许多云平台提供预训练的LLM，您可以在应用程序中使用。这可以节省您大量的时间和精力，因为您不需要训练自己的LLM。
专门的硬件：一些云平台提供专门用于运行LLM和生成式人工智能应用程序的硬件。这种硬件可以显著提高应用程序的性能和效率。
托管服务：许多云平台提供用于运行LLM和生成式人工智能应用程序的托管服务。这意味着您无需担心管理基础架构。

以下是云平台如何用于构建和部署LLM和生成式人工智能应用程序的一些具体示例。谷歌、亚马逊和微软，三家主要的云服务提供商，提供各种服务来构建和部署LLM和生成式应用程序：

Google Cloud Platform：Google Cloud平台（GCP）：

1,Vertex AI：一种用于构建和部署机器学习模型（包括LLM）的托管服务。

2,Cloud TPU：专门用于运行机器学习模型的硬件，可以显著提高LLM和生成式人工智能应用程序的性能和效率。

3,AutoML：一组工具，可以轻松构建机器学习模型，即使没有机器学习方面的专业知识。

Amazon Web Services（AWS）：

1,SageMaker：用于构建和部署机器学习模型的托管服务。

2,EC2 F1实例：专门用于运行机器学习模型的硬件。

3,SageMaker Canvas：一种可通过拖放方式构建机器学习模型而无需编写代码的工具。

Microsoft Azure：Azure：

1,Machine Learning Studio：另一种可通过拖放方式构建机器学习模型而无需编写代码的工具。

2,Azure Databricks：用于运行Apache Spark和Apache Hadoop工作负载的托管服务。

3,Azure Batch：用于运行大规模批处理作业的托管服务。

这些只是云平台如何构建和部署LLM和生成式人工智能应用程序的一些示例。云平台提供各种功能和服务，可帮助您将强大的LLM和生成式人工智能应用程序部署到生产环境中。

在这个企业架构（图1-1）中的一个基本组件是谷歌云的适配器层，是Vertex AI的一部分。这些层位于客户的谷歌云（GCP）租户内，以有效地分隔客户的数据，防止其被用于对大型基础模型的训练。

这种架构设计特别值得注意，因为这些适配器层在您的GCP租户内密切集成，与谷歌云的中央托管的大型基础模型建立紧密连接。适配器层在集成客户特定数据并微调您的模型时起着关键作用。这种分割确保客户的数据与大型基础模型的训练保持隔离，确保数据的隐私和安全。值得注意的是，这种设计不会影响利用广泛的中央模型的优势，因为它保持了用于最佳性能的强大数据接口。

此外，除了适配器层，这个企业架构还具有在GCP租户内直接利用会话式人工智能和企业搜索功能的独特优势。这使您能够从各种来源获取信息，包括私人公司数据库和公共网站，并同时保持企业严格的安全协议。

这里的另一个特点是执行数据库嵌入，使得可以直接从您的数据库生成精确和真实的答案，并在大型语言模型内部无缝集成。这种方法使人们能够以全新而安全的方式与您的内容进行互动。

这种架构利用组织在GCP租户内的安全措施和基础设施，将数据与尖端的生成式人工智能（Gen AI）能力无缝集成。它确保您的数据保持安全，使您能够有效地优化数据交互和检索流程。值得注意的是，LLMs也可以与其他云数据一起使用。它还可用于设计为消费者或企业LLMs的应用程序。

消费者和业务LLM

消费者和面向业务的大型语言模型被设计为满足各自受众的不同需求和用例。让我们简要概述一下消费者和业务LLM。

消费者LLM和生成式人工智能

我们设计消费者LLM/生成式人工智能以方便一般公众使用。在医疗保健领域中，消费者患者使用LLM/生成式人工智能来：

寻找和比较医疗服务提供者，
获得关于如何保持健康的建议
管理他们的健康记录
与其他患者和护理人员联系

消费者LLM专为个人用户设计，提供各种应用程序和功能，旨在满足个人需求和兴趣。这些LLM包括诸如聊天机器人、虚拟助手和内容生成器之类的模型。消费者LLM的关键特征包括

对话助手：消费者LLM，如虚拟助手（例如Siri、Google助手），旨在帮助用户设置提醒、回答常识问题、发送消息和播放音乐。它们被设计用于日常便利。
内容生成：一些消费者LLM可以生成文本，这对于起草电子邮件、编写创意内容甚至编码辅助等任务都会有所帮助。这些模型专注于提升个人生产力和创造力。
个性化：消费者LLM通常优先考虑个性化，从用户互动中学习，以提供量身定制的建议、内容和回复。
易用性：这些模型设计有用户友好界面，适用于广泛的用户群体，并且通常可在移动设备和个人计算机上使用。

业务LLM和生成式人工智能

企业和组织设计业务LLM和生成式人工智能以供自身使用。它们经常用于自动化任务、为数据提供见解，并生成创意内容，例如：

改善临床决策
开发新药物和疗法
提高临床试验的效率
改善健康平等
改进客户服务等运营

业务型LLM被设计来解决组织和企业的具体需求。它们配备了处理更复杂、行业特定任务和流程的能力。业务LLM的关键特征包括：

数据集成：业务LLM被设计用于与组织的数据源集成，如电子健康记录（EHR）、临床数据、索赔、药房或资格数据库。它们可以根据整合的医疗数据提供见解并生成报告。
行业特定用例：业务LLM定制以服务特定行业，如医疗保健。它们可以提供领域特定解决方案，如医疗诊断、索赔处理或临床决策。
协作与生产力：这些LLM通常包括能够促进团队协作、共享文档和工作流程自动化的功能，以提高组织生产力。
数据安全和合规性：业务LLM优先考虑数据安全、隐私和法规合规性。它们通常提供功能，以确保敏感业务数据的安全。
企业级支持：业务LLM配备了专门的客户支持和服务级别协议，确保其对企业的可靠性和一致性。

总之，消费者和业务LLM具有不同的用途，消费者LLM侧重于个人便利和个人生产力。相比之下，业务LLM旨在满足组织和行业的具体需求，提供定制解决方案、数据集成以及面向企业级运营的强大支持。

为什么差异如此重要：

消费者LLM/generative AI与商业LLM/generative AI之间的差异至关重要，因为它决定了使用方式和目标受众。我们设计消费者LLM/generative AI，以使其对普通公众易于访问，并为他们提供管理健康所需的信息和资源。

消费者LLM/generative AI与商业LLM/generative AI之间的另一个关键区别是监管要求。消费者LLM/generative AI通常比商业LLM/generative AI受到较少的监管。这是因为消费者LLM/generative AI并未用于做出医疗决策或提供医疗建议。另一方面，商业LLM/generative AI在更加敏感的环境中使用，其中信息的准确性和可靠性至关重要。

有几个重要理由需要区分商业LLM和消费者LLM：