微信扫码
与创始人交个朋友
我要投稿
本章内容,我们将简要介绍大模型,其中的内容包含大模型的发展历史、大模型的特点、大模型底层架构Transformer的简单了解以及最后对于人工智能的思考。
人工智能的概念开始形成,早期的计算机科学家和数学家探索机器是否能够模拟人类智能。
重要事件:1956年,达特茅斯会议上首次提出“人工智能(Artificial Intelligence,简称AI)”这一概念,标志着人工智能学科的诞生。随后,人工智能领域取得了一系列令人瞩目的研究成果,如字符识别程序、学习功能的跳棋程序等,掀起了人工智能发展的第一个高潮
这一阶段的AI主要依靠符号处理和规则引擎,强调逻辑推理。
关键技术:
• 逻辑推理、专家系统(如DENDRAL和MYCIN)。
• 语言处理(如ELIZA,最早的聊天机器人)。
随着计算能力的提升,专家系统开始流行,旨在模拟人类专家的决策过程。
关键事件:人工智能从理论研究走向实际应用,专家系统开始广泛应用于医疗、化学、地质等领域,实现了人工智能从一般推理策略探讨转向运用专门知识的重大突破,推动了人工智能应用发展的新高潮。
由于期望过高和技术限制,资金和研究兴趣减少,导致AI研究陷入低谷。
重要事件:随着人工智能应用规模的扩大,专家系统存在的问题逐渐暴露,如应用领域狭窄、缺乏常识性知识、知识获取困难等,导致人工智能的发展再次陷入低迷。
随着计算能力和数据量的增加,机器学习(尤其是统计学习)开始兴起。
关键技术:
• 支持向量机、决策树、聚类方法等。
• 互联网的普及使得大规模数据集的获取成为可能。
深度学习技术的突破使得AI在多个领域取得显著进展。
关键技术:
• 卷积神经网络(CNN)、递归神经网络(RNN)等。
• 大规模数据集和强大的计算资源(如GPU)的结合。
关键事件: 2012年,AlexNet模型的提出,标志着深度学习在计算机视觉领域的突破。2018年,BERT模型的提出,开启了自然语言处理领域的大模型时代。
随着Transformer架构的横空出世,大模型技术取得迅猛的发展。
关键事件: 2022年11月30日,ChatGPT3.5发布。
关键技术:
• 自然语言处理大模型
• 计算机视觉CV大模型
• 多模态大模型
大模型通常指的是具有大量参数(具有数亿到数千亿参数的深度学习模型)的深度学习模型,这些模型在处理复杂任务时展现出显著的性能提升。
大模型的encoder或decoder的层数通常在几十层到几千层不等。
大模型通常具有数亿到数千亿个参数。例如:阿里巴巴推出的最新大模型 Qwen2-72B
,其参数量为72B
,即 72 billion(720亿)个参数。
大模型对算力和显存的要求也非常高,一般情况下:
• 推理:所需显存为参数量的2~3倍
• 训练:所需显存为参数量的5倍
例如,对于 LLaMA-2 70B 模型,推理需要 140 GB,训练需要 840 GB。
大型语言模型通常使用数十亿到数万亿个 token 进行训练。例如,GPT-3 使用了约 570 亿个 token 的数据集。
与红楼梦的比较: 红楼梦 约
80万字
,如果我们将其视为800,000 tokens
,
这意味着,使用 570亿个 token 的大模型相当于约 712,500 本红楼梦。
大模型的训练,特别是涉及大量参数的模型,需要巨大的算力支持,这直接导致了大量的电力需求。
例如,训练Open AI的GPT-3模型耗电量约为1.287吉瓦时,这相当于120个美国家庭一年的用电量。
大模型一般是通俗的叫法,其学术术语一般叫生成式人工智能(AIGC)
,其目前的应用场景有:
• 文生文
• 文生图
• 文生视频
在人工智能的类型中,判别式模型和生成式模型是两种不同的建模思想。 判别式
• 建模思想:$P(y|x)$,即在给定输入 $x$(上文) 的情况下,输出 $y$ (哪一类)的概率。
生成式
• 建模思想:$P(x,y)$,即同时考虑输入 $x$(上文) 和输出 $y$(追加内容)的概率。
判别式模型专注于类别之间的边界,适合分类任务;而生成式模型则关注数据的生成过程,是一种发明创造的过程。
人类自从工业革命至今,历经三次革命:
• 工业革命:它使得人类的生产活动效率大大提高,在时间
维度帮助人类实现了效率的飞跃。
• 电力革命:伴随着电力的发展以及电报、电话等通信工具的出现,在空间
维度帮助人们实现了效率的飞跃。
• 信息革命:伴随着互联网技术的应用以及普及,催生了电子商务、社交媒体等新经济模式,改变了商业运作方式。这是在时间
和 空间
维度同时进行了效率的提升。
那么,此时被誉为第四次工业革命的 人工智能
,它会怎样改变我们的生产和生活呢?
Tips:
1、点击左下角"阅读原文" ,可以查看原始文章。
2、关注公众号后发送关键字,可以获得相应文章链接,例如:课程总结
欢迎关注公众号以获得最新的文章和新闻
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-13
Meta MobileLLM:深度架构与优化技术打造的移动设备超强语言模型
2024-12-13
漫画 Transform: 手把手用数学公式推导
2024-12-13
谷歌从来就没有落后,这一波gemini 2.0可太牛了,贾维斯来了!
2024-12-13
OpenAI发布49页长文,讲述o1的安全机制
2024-12-13
小模型界o1来了:微软推出Phi-4,数学推理能力太逆天!14B模型击败GPT-4o!还印证了AI墙的一个重要推断
2024-12-13
首发实测,Google最快AI来了!深度解析Gemini 2.0 Flash
2024-12-13
生成式人工智能理性与价值对齐
2024-12-12
谷歌发布史诗级Gemini2.0,“Agent时代”最强大的AI模型,使用TPU训练。
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-04-11
2024-07-18
2024-08-04
2024-07-01
2024-10-25
2024-12-06
2024-12-03
2024-12-01
2024-11-29
2024-11-26
2024-11-25
2024-11-21
2024-11-18