微信扫码
与创始人交个朋友
我要投稿
“ 大模型在某种程度上可以理解为是一个人 ”
最近一直在做大模型应用落地,随着对大模型应用的开发,对大模型的理解也更加的深刻;因此对大模型的认知也从刚开始的奉若神明,慢慢变成了一个能用的工具。
在基于大模型做应用落地的过程中,目前来说发现几个比较重要的问题,因此在这里记录一下。
大模型应用落地的问题
大模型的能力问题
大模型工程化落地过程中,首先要解决的一个问题就是大模型的能力问题,大模型发展到今天这个地步,说句实话各大厂商的模型从根本上来说已经没有太大的差别。
虽然还有人说某某大模型功能强大,但现实情况是各大模型各有优劣,谁也不能说谁能完全压倒谁。
而且在具体化的落地应用中,单一模型已经很难完成所有任务,因此多个模型能力整合才是应用落地过程中需要解决的问题。简单来说就是,能够给合适的应用场景找到合适的大模型。
因为不同的模型擅长不同的领域,比如有些模型擅长文字处理,有些模型擅长视频处理,每个模型擅长的点都不一样;而且,在同样的领域,不同的模型也有自己独特的风格,原因就是其训练的数据不一样。
比如,都是做文字处理的模型,也都能回答一些问题,可能有些模型擅长历史,有些模型擅长讲笑话;有些模型擅长国风的视频,有些模型擅长二次元视频。
因此,对待大模型不能一概而论谁强谁弱,因为在不同的尺度下根本没有可比性。
而现在很多做大模型服务的公司,依然在不断提升大模型的能力,比如生成能力,逻辑推理能力等。
但是在一些定制化场景中,还是需要进行针对性的设计和训练。
为什么要在这里强调模型能力问题?
首先你要明白,你需要的业务场景大模型的能力是否能满足;如果不能满足是因为大模型天生在这方面能力不足,还是说现有的模型无法满足,但经过定制化的模型就可以。
简单来说就是,你非要让一条狗去说人话,做人事,这明显是不可能的事;或者是你公司新招了一个大学生,可能他在某些方面的能力不足,但只需要经过培训和一段时间的工作就可以胜任。
因此,你首先要考虑市面上现有的模型是否能满足你的需求;还是要自己定制化模型,这个定制化包括简单的对模型进行训练和微调,还有就是从零重新设计和训练一个全新的模型。
这两种方式所面临的成本和技术要求,完全不可同日而语。
大模型的运维问题
在之前的一篇文章中也有提到过大模型在企业应用中所面临的运维压力,关于大模型在企业生产环境中的独立部署问题;我们都知道大模型首先具有庞大体量,其次具有庞大的算力和能源需求。
而从这几个方面来说,大模型运维就面临着巨大的挑战;在传统的应用开发部署过程中,由于很多企业业务体量小,随便找一台机器就可以跑起来。
但大模型由于其天生体量巨大,因此其刚开始就是传统系统运维所不能解决的,必须要采用分布式或集群部署,而且出于系统性能方面的考虑,大模型的高并发是必须要解决的一个问题。
而对于大规模分布式或集群部署,需要有一套完善的自动化运维工具,依靠人力是根本无法完成的。
因此,这也是很多企业落地过程中需要考虑的问题,是自己部署大模型还是直接使用第三方模型。
大模型的运维并不是简单的把模型跑起来即可,在解决分布式并行计算的基础之上,还需要同时保证大模型的性能和稳定性,以及扩展性。
这对绝大部分企业来说都是一种负担。
与传统开发的结合
大模型虽然被一些人给神话了,而且更多的人对大模型的认识还处于云山雾绕的阶段;但从功能的角度来说,大模型只是系统的一个模块;从技术的角度来说,大模型只是一个功能接口。
从大模型的能力角度来说,很多时候可以直接把大模型当作一个人,这个“人”会写作,会绘画,会做视频,会写歌,还会做PPT,还会逻辑推理和判断;你只需要告诉它你想要什么,然后它就可以帮你做出来。
只不过,不同的情况需要不同的能力进行配合,比如绘画,视频就需要它的生成能力和CV(计算机视觉)能力,文字处理就需要它的自然语言处理能力;而做旅行规划,工业生产就需要它具有逻辑判断和使用“工具(API接口)”的能力。
因此,大模型在落地过程中同样需要大量的传统开发能力,比如使用Python或JAVA做应用开发,使用数据库,MQ等做数据存储与通讯等。
大模型能够让你的业务做的更好,但你同样需要传统的开发能力来保证你业务的合理性与稳定性。
产品力
最后,说到底大模型只是一个工具,可能它能力比较强大,就类似于一个无所不能的“人”;但怎么利用好这个人,让你的产品变得更有特色,能够吸引更多的人来使用你的产品,让你的产品能够解决更多人的问题才是你需要考虑的,而这就是你产品的核心竞争力。
而这就是一个把大模型能力产品化的一个过程,所以你需要对大模型的能力有一个清晰的认知,并且还需要有把概念化产品落地的能力。这就是产品与大模型技术的结合。
当今市面上,任何产品的出现都会引来无数跟风的产品,不论从功能还是外貌都大差不差;因此,怎么在日益激烈的市场竞争中杀出一条血路,需要的不仅仅是技术能力,同时还需要营销能力,市场把控能力和产品设计的能力。
总之,大模型工程化落地过程中面临着各种各样的问题,这些还是自己能够想到的问题,可能还有很多想不到的问题存在。
最重要的是,这些问题都比较宏观,在具体的实践过程中还会需要更加细节的问题;比如说大模型的能力问题,怎么才能打造一个能用的,好用的强大模型,这是很多模型公司都在思考的问题。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
新型LLM优化技术削减内存成本高达75%
2024-12-26
AI模型训练到底在训练什么?
2024-12-25
Cursor小白必看:听说你还在安装配置环境?学会这个让你告别环境烦恼!
2024-12-25
微软变脸OpenAI,模型价值之争压不住了?
2024-12-25
GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”
2024-12-25
基于昇腾910B,使用XTuner微调一个InternLM个人小助手丨玩转书生大模型
2024-12-25
BERT新版本:ModernBERT -- Smarter, Better, Faster, Longer
2024-12-25
Cursor 0.44 重磅更新:全面提升 Agent 能力
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-26
2024-07-23
2024-07-20
2024-07-12