我要投稿

Karpathy 再次语出惊人：LLM 时代，PyTorch 之流的软件抽象都将成为历史

发布日期：2024-10-07 14:54:50 浏览次数： 2041

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

Andrej Karpathy，这位 OpenAI 创始成员、特斯拉前 AI 总监、斯坦福大学 CS231n 讲师，最近在 GPU MODE 研讨会上发表了一场主题为 “llm.c” 的演讲，再次语出惊人：LLM 时代，Python/PyTorch 之类的软件抽象都将成为历史！ ?

llm.c 是什么？

llm.c 是 Karpathy 用 C 语言（外加一点点 C++）从零开始写的一个 Transformer 训练框架

为什么要写 llm.c？

事情是这样的：一年前，Karpathy 想在他的视频系列（Karpathy非常喜欢分享AI技术）中添加一个关于 LLM 训练的视频，于是他开始用 PyTorch 写代码。结果，他被 PyTorch 的各种抽象概念搞得晕头转向，什么设备、数据类型、编译、分布式…… 各种问题层出不穷，代码出了 bug 都找不到原因！ ?

Karpathy 被折磨得不行，一怒之下决定： “老子自己写一个！” 于是，llm.c 就诞生了！

llm.c 的开发过程：

抛弃 PyTorch 的抽象，直面底层： Karpathy 决定抛弃 PyTorch 提供的各种便捷功能，例如自动微分、设备管理、数据类型转换等等，直接用 C 语言操作数组和指针

逐层移植，确保正确性： Karpathy 首先用 Python 写出每一层的 forward 和 backward 函数，然后将其移植到 C 语言，并与 PyTorch 的实现进行比较，确保结果一致

预先规划内存，提高效率： llm.c 会在程序开始时一次性分配所有内存，避免了动态内存分配的开销，从而提高了运行效率

单文件，无依赖，极致简洁： llm.c 只有一个 C 文件，没有任何外部依赖，编译和运行速度极快，甚至可以在非常低端的硬件上运行

GPU 加速，性能更上一层楼： Karpathy 将 llm.c 移植到了 GPU 上，并使用 cuBLAS 和 cuDNN 等库进行了优化，性能比 PyTorch 还要好！

分布式训练，支持多 GPU 和多节点： llm.c 还支持多 GPU 和多节点训练，可以处理更大规模的数据和模型

开源协作，吸引各路大神： llm.c 采用 MIT 开源协议，吸引了来自世界各地的开发者贡献代码和优化方案

llm.c 的性能：

在 8 张 H100 GPU 的单节点上，llm.c 可以在 24 小时内完成 GPT-2 (16 亿参数) 的训练，成本约为 672 美元

与 PyTorch 相比，llm.c 的内存占用减少了 29%，训练速度提高了 19%，编译和运行速度也更快

Karpathy 的思考：软件抽象的本质

Karpathy 认为， Python、PyTorch 等软件抽象的存在，是因为人类的知识、智力和注意力都是有限的。

随着 AI 能力的不断提升，LLM 或许可以直接为任何应用生成定制的二进制文件（就像 llm.c 一样），从而打破并重构所有软件抽象！

这意味着，未来的软件开发模式可能会发生根本性的改变！ 程序员将不再需要编写 Python 或 C++ 代码，而是直接用 LLM 来生成可执行文件！ ?

Karpathy 的 llm.c 项目，或许就是 AI 驱动软件开发的未来！ ?

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-03

模型微调是啥？有哪些方法？小白也能看懂的通俗讲解

2025-07-01

spaCy中文分句模型微调秘籍，从数据准备到模型评测，一学就会！

2025-06-26

深入理解大模型微调，LoRA超参数指南

2025-06-21

【大模型微调】5.调参经验总结与显存占用因素探究

2025-06-20

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-17

手把手教你用LLaMA-Factory微调Qwen3大模型

2025-06-17

万不得已，不要对 LLM 进行微调？

2025-06-15

AI 彻底摆脱人类！Anthropic让模型自己微调自己，左脚踩右脚要上天……

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Qwen3小模型实测：从4B到30B，到底哪个能用MCP和Obsidian顺畅对话？

2025-04-30

LoRA 与QLoRA区别

2025-04-19

2025 AI驱动研发工具对比丨独立测评

2025-04-16

AI王炸：MCP服务端客户端的完整实现

2025-04-16

MCP vs Function Calling，该如何选？

2025-04-20

DeepSeek V3 0526更新？实测代码能力已经提升，附实测案例。

2025-05-26

国内企业应用AI大模型赋能软件测试的落地实践案例

2025-04-20

低延迟小智AI服务端搭建-ASR篇（续）：CPU可跑

2025-04-19

Ollama环境变量配置全攻略：从基础设置到场景化调优

2025-05-07

8卡H20运行DeepSeek-V3-0324性能和推理实测

2025-04-20

大家都在问

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

为什么AI多轮对话总是那么傻？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部