微信扫码
与创始人交个朋友
我要投稿
高校图书馆大模型应用的底层逻辑
by: 常笑
2024上半年围绕图书馆大模型应用,业界召开多场次人工智能(AI)、大语言模型应用主题会议,凸显了对大模型应用的重视。但通过一段时间对相关会议资料的学习,个人对图书馆大模型应用发展形势却产生某种程度的担忧。
业界对大模型应用的重视是值得肯定的,但同时我们也要看到重视并不等于重用。重视体现的是一种态度,而重用代表的是合理规划业务发展的能力。重视本身并不创造价值,重用才是实现技术赋能,提升工作效益的方法和途径。
整体来看,当前图书馆大模型应用处于重视阶段,尚未达到重用的程度。在图书馆大模型应用方面,研究并弄清楚大模型应用与图书馆业务发展的逻辑关系,能够输出高价值服务,能够实质性推动业务发展与工作创新,这个意义则更为重大。
对于大模型应用,自己也是边研究边学习。今天跟朋友们分享一点工作体会,重点谈一谈高校图书馆大模型应用的底层逻辑。
在图书馆的大模型应用方面,业界做了一定的调查与研究工作,比如2024年5月发布的《图书馆领域大模型创新应用需求调研报告》,就是以上图为代表的智慧图书馆技术应用联盟对图书馆领域大模型的调研分析。
这份报告从行业应用到图书馆应用做了较为全面的调研,具备较强的参考价值。但从该报告在站点下载量来看,下载学习这个报告的不是太多。从个人学习感受来讲,还是推荐大家去阅读这份调研报告。
根据《图书馆领域大模型创新应用需求调研报告》呈现的数据,当前国内外大模型已在办公、教育、医疗、金融、文娱、交通等领域落地应用,从行业渗透率来看,金融业的渗透率最高,已达78%。
这句话在长篇的调研报告中似乎是一带而过,显得无关紧要,但我却认为这是一条有价值的信息。许多领域都在积极引导大模型应用落地,为什么却是在金融领域渗透率最高?
这背后隐藏着一个容易被忽视,却又极为关键的问题,那就是数据质量。目前各行各业在数据应用方面都有痛点和难点,金融领域也不例外,也一直在强调数据治理。但即便这样也不可否认一个事实,那就是金融领域数据质量要远高于其他领域。
这也好理解,银行存款,投资理财,资金往来,税率计算,等等,每一笔业务都要做到清清楚楚。说得通俗一点,凡是跟“钱”沾边的事,容不得半点马虎。这不仅是一个工作态度问题,更大程度上是凭借规范化与标准化的业务流程来提供保障。所以,大模型在金融领域广泛应用,其背后的底层逻辑就是数据质量。
在生活中有很多事情可能超出我们的认知。比如大概在20年前,学校建设数据中心机房时组织过相关调研,自己有机会在上海参观过某大型证券公司机房。由于安全防护等级比较高,我们实际就是隔着玻璃远远地观看,听介绍。当时机房那种庞大的规模,整齐的布线,先进的制冷,都给我留下极为深刻的印象。
如今20年过去了,虽然高校数据中心机房建设普遍取得长足进展,但与金融等商业机构相比仍然存在较大差距。可能有同行会认为目前高校也是模块化机房,拥有一体化机柜和精密空调,也很现代化,能有什么差距呢?
这可能就涉及到上面我提到的认知问题。如果硬件设施代表的硬实力,规范化管理则代表软实力。硬实力是显性因素,改善较为容易。与之相比,软实力的提高并没有那么容易。
软实力是一种比技术能力更强的规范化管理能力,在我们的传统意识中,能够对现有网络架构进行升级和改造就是掌握了技术能力。但殊不知真正的高水平管理不是随时能“动”,而是保持“不动”。
从工作经验来看,高校机房普遍处在改造与变动阶段。在这个过程中,如果规范化管理不到位,在拉拉扯扯中再好的布线也难免会弄乱。金融行业机房由于承载业务的重要性,所以一般不会有太大的变动,不动就不会乱,不乱就不容易出错。这不仅仅是一个美观度问题,而是一个安全问题。规范化管理可以有效降低故障率,出现故障也会拥有更快更强的技术响应能力。
说了这么多并没有跑题,这体现的就是金融领域的规范化管理能力。这种能力体现在数据方面就是高质量数据,体现在大模型应用方面就是高达78%的行业渗透率。
同样的道理,在图书馆领域搞大模型应用,就不能抛开数据质量不谈。如果只是就事论事,进行一些尝试型、体验型应用,那么缺少数据质量做支撑的大模型应用,将很难输出高价值服务,从而也就很难走远。这就是前面我会对图书馆大模型应用发展形势产生担忧的一个原因。
这段时间我留意到行业内的一些宣传,比如将馆员是否了解大模型与会不会被淘汰挂钩,将AI应用与智慧图书馆挂钩。这可能是为了体现对图书馆大模型应用的重视,但是这些提法不甚妥当。
这个世界已经足够“卷”,作为图书馆人来讲,没有必要再自我加压卷出新高度。各行各业,门类如此众多,我不相信大模型偏偏就跟几个馆员过不去。要说清楚这个问题,需要先厘清大模型发展的时代背景。
我们看一下近些年部分主流IT新技术的产生,就会发现一个耐人寻味的现象。IPv6和区块链,从上世纪90年代提出到近几年逐渐开展商用研究,用了大概二十年的时间,5G从提出到商用大概十年的时间,大语言模型的发展也是十年。
但接下来AI与大语言模型的发展,显然跟以往节奏不同。2022年11月OpenAI公司发布ChatGPT,2023年3月发布GPT-4,2024年2月发布文本-视频程序Sora。这一连串如行云流水般的操作,不断高频率、大幅度刷新行业指标,更是引领全球市场格局新风尚。
这两组时间线对比是很有趣的。按照以往的步调,美国完全可以按照3到5年一个周期,陆续引领技术升级换代。但实际情况却是紧锣密鼓,环环相扣,给人有点跟不上节奏的感觉。
这一方面是AI产业公司数据累积到一定程度,从量变到质变的结果,同时这也从另一个方面反映出美国自身出现了比较大的问题,需要靠科技引领来提振经济信心。毕竟当下的美国,公共债务正以100天扩增1万亿美元的规模疾速飙升,这一现象无疑加剧了全球市场对于美国经济稳定性的担忧。
所以,美国亟需通过某种方式来提振经济信心,让资本回流美国。而AI新概念和新技术的发展,就是当前美国经济的强心剂。我们一般认为国内的企业应当爱国,实际上这些实例很明显的告诉我们,美国企业也是国家利益至上,会以实际行动配合国家政策。所以近几年AI发展带给我们一次次的冲击和震撼,其中的一个原因就在于此。
弄清楚了这个问题,接下来就可以更好地理解ChatGPTs、Sora这些应用的价值所在。相比于个人应用,ChatGPTs、Sora更大的价值在于产业应用。通过技术革新引领产业发展,这种引领甚至会带来颠覆性的商业模式改变。
相比于产业应用,对个人来讲,AI及大语言模型本质上就是一种工具。这有点像从“自然吸气发动机”向“涡轮增压发动机”的转变。涡轮增压发动机相比于自然吸气发动机,不论技术如何先进,它总归是一种发动机驱动技术,对于广大的驾驶员来说,并不需要关心其内部工作原理。
同样,AI及大语言模型除了少部分开发人员,对广大用户来讲这不过是一个从“自然吸气”到“涡轮增压”的改变。所以,如果我们拿着一个工具对广大用户说,你得了解其工作原理,否则就会被淘汰,这其实是没有道理的。事物的发展与演进自有其规律,所以对于大语言模型,正确的态度是以平常心来看待,不消极也不激进。
在辩证地看待大模型发展的基础上,接下来谈一谈高校图书馆大模型发展的底层逻辑。
从一些典型案例来看,当前高校图书馆尝试助理馆员服务的大模型应用较多。助理馆员大模型主要依托于通用语料库和本地语料库的知识学习,由用户信息检索向对话提问式服务转变。这个思路并没有问题,但有一点需要引起特别关注。
我在之前的文章中曾多次提到过,图书馆要实现高质量发展,需要提供高质量服务,而高质量服务需要有高质量数据做支撑。
比如,如果只是通过对话的方式提供一些书籍的相关信息,这在很大程度上属于“科普”性质的服务。而科普并不是读者真正需要的服务,所以并不属于高质量服务。
以纸质图书借阅为例,相比于了解图书的基本信息,读者更需要的是图书的确切信息,比如在哪里能找到这本书。虽然有的大模型提供了这种功能,但是未必能够提供这种服务。
这个问题我在之前的文章中讨论过,此处再简略提一下。找书服务不能仅基于索书号等信息为读者提供服务,因为图书并不总是按照理想状态存放于书架。图书是在架、借阅、破损还是丢失,等等,这些数据都要搞清楚。否则就会出现用户获悉图书位置,在指定位置却找不到书。如此反复几次,你说读者是满意还是不满意,这是服务质量提升还是服务质量下降?
所以,要让助理馆员服务形成高质量服务,其实很不简单。这项服务高度依赖于数据质量,高质量数据才能输出高价值服务。
因此,图书馆大语言模型应用的底层逻辑就是“数据质量”,落实到具体工作中就是“数据治理”。如果看不清这个背后的底层逻辑,图书馆的大模型应用将很难取得成效。
弄清楚了这个问题后,对图书馆大模型应用的发展路径就比较清晰了。在《图书馆领域大模型创新应用需求调研报告》中,图书馆大模型应用按照大模型的特征与业务场景进行了分类。
其实我觉得按照服务对象进行分类,更容易对业务提出发展规划。将大模型应用按照“服务读者”和“辅助管理”进行划分,按照这个标准可以更好地对标“高质量服务”这一原则,更好地对业务场景进行选择与把控。
以科研支持为例,如果是面向读者的科研支持,图书馆在这方面就需要适度提供服务。图书馆有科研支持,但是一般指的是科技查新、查收查引、学科服务、知识产权服务等。至于AI学术助手、AI写作助手等与图书馆的服务并没有必然的逻辑联系。现实的例子也比较直观地反映这一问题,知网就是与我们学校社科处合作,为教师科研提供的研学工具和培训服务。
所以,在图书馆的业务发展中,要避免大包大揽。大而全形成不了特色与优质服务,图书馆今后的服务重心应聚焦于针对型、优势型、专有型服务。
在上一篇文章“基于LSP平台的图书馆业务融合与创新”中,我对图书馆的服务和管理进行了总结。“精细化服务是业务能力输出,而精细化管理是培养业务能力的根本途径。精细化管理提升到一定水平,对外呈现的自然是精细化服务。从这个角度来讲,精细化管理是精细化服务的内生驱动力,是实现图书馆高质量发展的关键因素”。所以图书馆加强业务管理,提升业务管理水平很重要。
我们从业务和管理的角度,继续深入探讨科研支持服务。在平时的工作中,除了传统采编流的各个环节,大家是否注意到为读者提供科研支持服务的部门同事是比较辛苦的?
科研支持是一项比较严谨的工作,工作涉及大量查重、查新的内容,同时还要凭借工作经验,理解查新内容,合理选取检索关键词,可以说每一篇报告的生成背后都是科研支持人员艰辛的努力与付出。
在图书馆的普遍认知中,服务就是指对外服务,比如为读者和科研人员提供的服务。但在工作中有时就需要打破常规,突破思维定势。其实服务也有内外之分,图书馆要寻求业务的长远发展,对内部工作人员也要做好服务工作。
当前阶段就图书馆的工作内容来讲,基于大模型做好科研支持保障,将科研支持人员从繁重的工作任务中解脱出来,哪怕是很好的解决部分问题,也是很有意义的事。
从大处着眼,从小处入手,实实在在地解决工作中存在的难点和痛点,这就是高质量服务。当一家企业能够做好科研支持工作,其背后积累的数据不仅在于高质量,更具备了一定权威性和公信力。拥有如此稳固的数据底座,就会比较容易拓展应用开发与生态建设。
当然,在众多的学术会议中关于科研支持大模型几乎没有涉及,这里面其实也有一个玄机。科研支持工作不同于图书馆其他常规业务,作为用户并不总是能够提供有效的查新条件,需要科研支持人员耐心细致地沟通。所以,现阶段科研支持工作高度依赖查新人员的工作经验与业务水平。
如果大模型做不到这一点,工作的压力就会传递给审核人员。当审核人员对提示词做出各种优化的时候,就相当于人工重新做了一遍。所以,开发科研支持大模型具备一定的挑战性。
但是工作不能只拣容易的做,有条件的图书馆还是可以酌情考虑,就像我上面提到的,哪怕是很好的解决部分问题,也能改善办公条件,实现工作效率提升。
既然图书馆大模型应用的底层逻辑在于数据质量,那么我们再对图书馆数据情况稍作分析。
在高校,相比于兄弟部门,图书馆往往拥有大量的数据资源,从数据这个角度来看,图书馆类似于一个小型数据中心。如果只是停留在图书馆有数据这样的认知层面,将很难透析图书馆今后的业务发展。
虽然数据都在图书馆,但图书馆的数据至少分为这么两类。一类是图书馆本身的数据资产,一类是图书馆购买的数据资产。
图书馆本身的数据资产包括图书管理平台(LSP)的采访、编目、馆藏、流通数据等等,资产归属较为明确。
而图书馆购买的各类数据库资源,这类资源与LSP平台数据不同,图书馆究竟购买的是使用权,还是购买的数据资产,目前业界认识比较模糊,争议也比较大。
对于这个问题我是这样理解的,如果从资产角度来看,图书馆购买的是数据资产,如果从技术角度来看,图书馆实际购买的是使用权。随着技术发展与产业变革,今后必然还会遇到许多不同于以往的产品形态,单一视角看问题难免有其局限性,所以我们要用发展的眼光多角度看问题。
在图书馆的这些数据中,数据库商的数据质量相对是有保障的,所以我们看到超星等企业在做知识图谱、AI助教等产品和服务。虽然是跟学校合作,但背后还是大量依托企业自身的数据。
与企业数据相比,图书馆就需要更好的关注自身数据质量问题。在图书馆的数据中,数据质量也是有区别的。从采编流这个环节来讲,采编环节的数据质量要优于流通环节的数据质量。所以在图书馆今后的工作中,流通环节的流通数据、行为数据等是数据治理的一个重要方向。
图书馆的业务是一个综合体,业务有关联,同时数据又相互作用。以目前部分企业在做的智能采选为例,如果不能基于高质量流通数据,智能采选将变为采购形式的智能化,无法实现基于读者需求的智能化。而融入读者需求的智能化,才是图书馆所需要的高质量服务。
至于图书馆工作中如何开展数据治理,我在“高校图书馆如何以信息化思维谋篇布局促发展”、“高校图书馆的业务创新及未来发展”、“基于LSP平台的图书馆业务融合与创新”等几篇文章中有较为详细的论述。
上述文章中提到的业务优化与数据治理,来源于工作实践与思考,具备较强的可行性。相关文章每天都在持续阅读与转发中,许多高校同行与我建立联系,讨论相关问题。我很乐意能够为高校图书馆发展建言献策,不管是哪所高校在这方面有所突破,对图书馆行业来讲都是一件很好的事情。
回到文章开头谈的问题,图书馆大语言模型应用的底层逻辑是“数据质量”,智慧图书馆发展的底层逻辑则是“数据治理”。所以,如果把AI、大模型与智慧图书馆强行挂钩也不太合适,至少现在这个阶段,数据治理才是推动智慧图书馆发展的有效驱动力。
数据治理是由顶层重视,到制度规划,到技术保障,再到人员实施的一个系统性工程,可能不会像建一个大屏一样产生直观的展示效果。但是,这是图书馆今后业务发展的根本,我们所做的工作就是在“蓄水”,当达到一定量级的时候,自然会形成“水到渠成”的效果。
7月份,时间已进入下半年。如果说上半年图书馆大模型应用被赋予了温度与激情,那么希望下半年的工作更趋向于成熟与理性。我们一起努力,积极探索,勇于实践,有所作为,共同为图书馆大模型应用助力!
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
AGI前夜!别再卷技术了,快来拯救世界!
2024-12-26
微软 OmniParser:如何让机器 “看懂” 手机电脑界面?
2024-12-26
Token已死?AI认知的新范式正在崛起
2024-12-26
字节和BAT,谁能缚住AI苍龙?
2024-12-26
大模型语义分析之嵌入(Embedding)模型
2024-12-26
Anthropic:高效构建AI Agent的最佳实践范式
2024-12-26
微软CEO纳德拉给出AI时代的关键答案:先有组织进化,才有技术突破(附视频)
2024-12-26
10分钟了解大模型应用全貌 : 大模型应用架构(LLM application architecture)
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01