我要投稿

超全总结！大模型算法岗面试真题来了！

发布日期：2024-04-02 07:03:50 浏览次数： 5438 来源：机器学习社区

大家好，从 2019 年的谷歌 T5 到 OpenAI GPT 系列，参数量爆炸的模型不断涌现，尤其2022年11月底对话大模型 ChatGPT 的出现更是引起了社会各界的广泛关注。

近些年，在大规模语料库上预训练 Transformer 模型产生了预训练语言模型（PLMs），并在解决各类 NLP 任务上展现出了强大的能力。

当参数规模超过一定水平时，语言模型实现了显著的性能提升，并展现出小模型中不存在的能力，比如上下文学习。为了区别于 PLM，这类模型被称为大型语言模型（LLMs）。

为了让大家更容易上车大模型，结合一些小伙伴参加大模型面试的真题分享和自己实战经验，我对大模型常考的面试题归纳为：大模型基础，大模型参数微调、训练、推理，大模型应用框架，大模型分布式训练，其他技术等内容。

喜欢本文，喜欢记得收藏、关注、点赞，喜欢技术交流，文末加入我们

大模型基础

你比较关注那些主流的开源大模型？
目前大模型模型结构都有那些？
prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点？
模型幻觉是什么？业内解决方案是什么？
大模型的 Tokenizer 的实现方法及原理？
ChatGLM3 的词表实现方法？
GPT3、LLAMA、Chatglm 的Layer Normalization 的区别是什么？各自的优缺点是什么？
大模型常用的激活函数有那些？
Multi-query Attention 与 Grouped-query Attention 是否了解？区别是什么？
多模态大模型是否有接触？落地案例？

大模型参数微调、训练、推理

为什么需要进行参选微调？参数微调的有点有那些？
模型参数微调的方式有那些？你最常用那些方法？
prompt tuning 和 prefix tuning 在微调上的区别是什么？
LLaMA-adapter 如何实现稳定训练？
LoRA 原理与使用技巧有那些？
LoRA 微调优点是什么？
AdaLoRA 的思路是怎么样的？
LoRA 权重合入chatglm模型的方法？
P-tuning 讲一下？与 P-tuning v2 区别在哪里？优点与缺点？
为什么SFT之后感觉LLM傻了?
垂直领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？
进行SFT操作的时候，基座模型选用Chat还是Base?
领域模型词表扩增是不是有必要的？
训练中文大模型的经验和方法
模型微调用的什么模型？模型参数是多少？微调模型需要多大显存？
预训练和SFT操作有什么不同？
训练一个通用大模型的流程有那些
DDO 与 DPO 的区别是什么？
是否接触过 embeding 模型的微调方法
有哪些省内存的大语言模型训练/微调/推理方法？
大模型（LLMs）评测有那些方法？如何衡量大模型的效果？
如何解决三个阶段的训练（SFT->RM->PPO）过程较长，更新迭代较慢问题？
模型训练的数据集问题：一般数据集哪里找？
为什么需要进行模型量化及原理？
大模型词表扩充的方法及工具？

大模型应用框架

什么是 LangChain?
什么是 LangChain Agent?
什么是 LangChain model?
除了 LangChain，是否了解其他框架？
是否有基于LangChain 搭建大模型应用的经验，请详细说明？
搭建大模型应用遇到过那些问题？如何解决的？
如何提升大模型的检索效果
是否了解上下文压缩方法？
如何实现窗口上下文检索？
开源的 RAG 框架有哪些，你比较了解？
大模型应用框架 LangChain 和 LlamaIndex 各种的优势有那些？
你使用的向量库有那些？各自有点与区别？
使用外部知识数据库时需要对文档进行分块，如何科学的设置文档块的大小？
LLMs 受到上下文长度的限制，如果检索到的文档带有太多噪声，该如何解决这样的问题？
RAG（检索增强生成）对于大模型来说，有什么好处？

大模型分布式训练

大模型进行训练，你用的是什么框架？
业内常用的分布式AI框架，你什么了解？
数据并行、张量并行、流水线并行的原理及区别？
推理优化技术 Flash Attention 的作用是什么？
推理优化技术 Paged Attention 的作用是什么？
CPU-offload，ZeRO-offload 了解?
ZeRO，零冗余优化器的三个阶段？
混合精度训练的优点是什么？可能带来什么问题？
Megatron-DeepSpeed 方法？
Megatron-LM 方法

其他技术

你GPU服务器用的那些？
是否使用过国产GPU服务器？
是否部署过Docker 和 k8s ?
Linux 常见命令大全
Docker 常用命令大全
Kubernetes 常用命令大全
平时使用的开发语言是什么？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-02-22

王侯将相宁有种乎？AI 正在制造新一轮草根逆袭潮

2025-02-21

人机协奏曲：AI时代员工人效的破局与重构

2025-02-15

DeepSeek 越强大，我就越容易变蠢？

2025-02-15

AI时代，该怎样学习。

2025-02-12

DeepSeek王炸组合：办公效率飞升秘籍

2025-02-09

一个超实用脚本，让你的DeepSeek自动重试解放双手。

2025-02-07

DeepSeek重构了知识工作者生产力版图

2025-02-05

解锁DeepSeek R1数据限制：一台电脑打造高效个人知识库

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文：人人都能学会的提示词，揭秘18个prompt模版，8个秘诀，助你AIGC从入门到精通，从可用到好用

2024-04-02

可灵AI的网页版上线了

2024-07-07

办公新利器：DeepSeek+Word，让你的工作更高效

2025-02-02

千万别用可灵AI复活老照片！

2024-06-24

苹果Mac用户的福音：本地运行Meta Llama 3的终极指南

2024-04-27

一个叫李星玮的上海交大博士火了！GPT4-o通过数据分析出他100%的渣男属性！

2024-06-06

xinference + dify + ollama 构建本地知识库

2024-05-08

一种可复用的AI提效方案：AI点灯

2025-01-03

超全总结！大模型算法岗面试真题来了！

2024-04-02

国内20家公司大模型岗位面试经验汇总

2024-05-04

大家都在问

DeepSeek 越强大，我就越容易变蠢？

2025-02-15

AI正在如何重塑未来职业发展路径？

2025-01-13

为什么大多数人不愿意接受AI？

2024-12-26

AI知识泛滥的年代，“脑图+AI”=“埃迪+毒液”：未来工作流的黄金组合，你掌握了吗？

2024-11-12

A16Z：导出"你的大脑"给AI,你将收获什么？

2024-10-15

AI简单提问就能实现学习弯道超车！如何使用AI加速学习？

2024-09-09

【人工智能】AI时代是失业的噩梦，还是效率的提升？

2024-09-06

普通人如何用 AI 提升效率？

2024-09-06

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB