我要投稿

MiniMax 深夜首次开源，400万长文本，全新架构，挑战Transformer

发布日期：2025-01-15 13:46:27 浏览次数： 2022 作者：橘子汽水铺

昨天深夜，MiniMax 突然宣布发布自家最新语言大模型，并且历史首次全面开源。

基础语言大模型 MiniMax-Text-01，视觉多模态大模型 MiniMax-VL-01
全新的 Lightning Attention 架构，平方变线性，大幅降低推理成本
重磅开源，文本模型参数高达 4560亿，32 个专家
超超长 400 万字长上下文，且性能追平顶尖海外模型
模型、代码、技术报告已经全部发布，非常真诚

目前网页体验和API也都已经上线，可以在线体验和商用，地址见文章最后。

新技术：Lightning attention

这次模型最让人惊喜的就是全新的线性注意力架构。

大家都知道在实际的 AI 使用中，长文本至关重要，角色聊天的超长记忆，AI Coding 写代码，Agent 完成各种任务，哪个场景都离不开长文本。

大模型虽然一直在降价，但是使用的时候上下文越长，速度就越慢，价格也就越贵。

这个问题的根源是 Transformer 架构有二次计算复杂度。随着上下文的增加，推理的算力消耗是指数上升的。

而这次 MiniMax 的新模型，使用了 Lightning attention 机制，是一种线性注意力机制，能够大幅降低长文本的计算量和推理时间。

在技术报告中，可以看到对这次模型的主要架构图。

这个架构对模型推理资源消耗的降幅非常巨大，通过下面的长文本的推理时间对比图就能看出，在上下文持续上升时，使用了线性注意力让推理时间接近线性地缓慢增加，而非指数级别增加。

更详细的介绍可参见文末的技术报告。

计算量降低了，价格下来了，性能也不能损失，长文本才算真正可用。

下图是 Text-1 在超长文本评测集的性能表现，在512K的长度以上的区间，性能竟然超过了 Gemini 2.0 Flash。

技术报告里另外一个非常有趣的点是，随着上下文的提升，模型的 In-Context Learning 能力，逐渐增强，这对 AI 写作以及需要长记忆的任务都有巨大的帮助。

总的来说，Lightning attention 机制的应用，让大模型的长文本可用性大幅提升，价格也有机会再下降一个量级，未来，非常值得期待。

模型性能，追平一线

模型性能指标方面，作为开源模型，在很多指标追上了最佳的海外闭源模型。

并且由于模型有海螺平台反馈进行优化迭代，用户真实场景的使用体验也有保证。

官方利用真实的用户使用场景构建了一个测试集，可以看出在真实场景的表现也很亮眼，特别突出的场景是三个：创意写作、知识问答、长文本。

另外，视觉理解模型 MiniMax-VL-01 表现，基本在每个指标上都追平或超过了海外顶级模型，特别是实用的 OCR 和图表场景。

模型价格

输入：1元/百万 token

输出：8元/百万 token

基本上闭眼用。

模型资源

代码：https://github.com/MiniMax-AI/MiniMax-01

模型：https://huggingface.co/MiniMaxAI/MiniMax-Text-01, https://huggingface.co/MiniMaxAI/MiniMax-VL-01

技术报告：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

网页端：https://hailuo.ai

API: https://www.minimaxi.com/

最后的话

看完今天 MiniMax 新发布的的 01 系列模型，MiniMax-Text-01 和 MiniMax-VL-01 表现都相当不错。

线性注意力的大规模应用，不仅能进一步降低模型价格，也是未来模型突破更大上下文窗口的必备技术，意义重大。

但最令人惊喜的，还是 MiniMax 选择将模型开源，并将预训练和后训练的心得通过技术报告分享给大家。

未来一年，我们依然需要大语言模型持续进步，这样AI 应用才能解锁更多的新场景。

未来一年，期待 AI 行业更开放的交流和更大的进步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-25

78k star，像写 Markdown 一样画流程图，这个开源工具太牛了！

2025-04-25

MarkItDown MCP：一款好用的将文件和办公文档转换为Markdown的AI工具！

2025-04-24

AI+SQL客户端，这款开源神器让数据库管理像聊天一样简单！

2025-04-24

效率革命！GitHub爆火的开源神器MinerU：PDF、网页、电子书一键转Markdown

2025-04-24

Suna：构建你专属“通用智能体”的开源利器

2025-04-24

开源TTS领域迎来重磅新星！Dia-1.6B：超逼真对话生成，开源2天斩获6.5K Star！

2025-04-24

仅用3周时间，就打造出Manus开源平替！贡献源代码，免费用

2025-04-23

只需6G显存，就能本地跑的AI视频算法，开源了！

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

万字详解DeepSeek-R1，引爆AI圈的又一力作，大模型爆发势不可挡！

2025-01-21

太强了！10大开源大模型！

2024-05-06

QWEN2.5开源上新，14B/32B回归实测：这就是最强单卡本地模型！

2024-09-20

全民进入GPT-4时代：OpenAI强势推出GPT-4o mini！彻底取代GPT-3.5！

2024-07-20

如何免费使用 Claude AI？Claude使用指南！

2024-07-11

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

DeepSeek-V3 正式发布

2024-12-26

大家都在问

AI大模型火热，将 Hugging Face大模型转换为 GGUF 为何受关注？

2025-04-21

微软最新 Playwright MCP 服务器强势来袭？

2025-04-19

OpenAI开源的Codex CLI是什么？

2025-04-17

MCP，这个AI 开源协议有多大想象空间？

2025-04-15

Google ADK，知多少？

2025-04-13

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

实测Llama 4，究竟是王者归来，还是廉颇老矣？

2025-04-07

4天开发，1700万美元融资：开源的Browser Use为啥这么火？

2025-04-03

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB