AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


直接爆了!阿里再次第一!
发布日期:2024-09-20 11:25:34 浏览次数: 1529


关注 AI 的小伙伴都知道,OpenAI 在上周发布了 o1 模型,比之前的 GPT4o 强了许多,按照我很喜欢的一位博主卡神的说就是“我们正式迈入了下一个时代”,以前是快思考,现在是慢思考。

快思考就是大模型通过自己海量的知识库快速给出直观的答案;慢思考就是大模型通过自身的迭代和深思给出更具有逻辑推理的答案,准确性更高。

于是我就很期待阿里的通义千问能给我一个大大的惊喜,毕竟早在 2024年6月7日,阿里开源的 Qwen2 在发布后仅 2 小时,就登顶 HuggingFace 开源大模型榜单 Open LLM Leaderboard 的第一名,全球排名最高。

时隔三个月,Qwen 2.5 全新开源模型上线,比起 iPhone16 的挤牙膏,阿里的通义千问大模型可以说有了一个非常大的升级。

只能说阿里的技术底蕴还是在的,就连老外都忍不住夸赞了起来:这确实是 AI 公司历史上最大的发布、你是真正的 OpenAI、模型表现不错,感谢你为开源社区做出的贡献。

我简单罗列一下 Qwen 2.5 升级的内容:

①、提供 7 种参数规模的模型(从 0.5B 到 72B)可以说是全尺寸覆盖,0.5B 适合耳机、鼠标等轻量级外设,3-7B 适合手机等移动端设备,14B 适合个人开发者,72B 适合科研机构和企业。

②、经过阿里最新的数据集进行预训练,包含多达 18T tokens (“ T ”表示“万亿”, 18T 即 18 万亿)

③、在遵循指令、生成长文本、理解结构化数据(如表格)以及 JSON 方面有了显著改进

④、支持最多 128K tokens 的上下文长度,并且能生成多达 8K tokens 的文本

不论是大语言模型,还是视觉模型、代码模型、数学模型、音频模型等都有了较大的升级,阿里云的 Qwen 系列可以说一举撑起开源模型的半壁江山。

这次发布的不仅有语言模型 Qwen2.5,还有专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。

展开来说就是,Qwen2.5-Coder 在包含 5.5T tokens 的编程数据上进行了训练,这使得他在编程评估基准测试中表现出了媲美大语言模型的竞争力。

Qwen2.5-Math 也整合了多种推理方法,包括 CoT(Chain of Thought,思维链)、PoT(Program of Thought,思维程序)和 TIR(Tool-Integrated Reasoning,工具集成推理)。

最新的开源模型 Qwen2.5-72B 在与 Llama-3.1-70B、Mistral-Large-V2、DeepSeek-V2.5 等进行比较的时候,也展现出了惊人的实力。

有人说,开源模型永远打不过闭源,因为大模型的标杆 OpenAI 就是闭源的;但我始终认为,尊重科学、相信技术、痴迷技术的一群人才能走的更远(开源恰好能吸引这样一批人)。

不管是开源了 Llama 的 Meta,还是开源了 Qwen 的阿里,他们的开源精神都值得表扬。

想当年 Linux 的内核源码也是开源的,这才让 Linus 从此封神,Linux 也顺理成章地成为生产环境级别的操作系统。

我自己也是开源的受益者,无论是开源知识库《二哥的 Java 进阶之路》,还是开源的实战项目技术派和 PmHub,都让我的技术影响力得到了极大的提升。

“talk is cheap,show me the code”,一直都是我的人生信条。

我在第一时间也把 Qwen 2.5 接入到了派聪明 AI 助手里,整个过程非常丝滑,代码已经完全提交到 GitHub 仓库。

由于阿里提供的 SDK 考虑得非常周全,所以整个 API 的接入也就用了 200 行代码左右。

感兴趣的小伙伴可以直接通过魔塔去体验通义千问 2.5 的强大之处,技术派我也已经部署上线。

https://modelscope.cn/studios/qwen/Qwen2.5

好,我们先来问一个非常致命的问题(陷阱非常多):

农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。

很快,通义千问就给出了一个非常完美的答复,和 OpenAI o1 给出的方案是完全一致的。

前面也提到了,Qwen 2.5 除了在语言模型的推理上增强了很多,在代码能力上也得到了极大增强,我们不妨来一道 LeetCode 题测试一下。

我现在想刷 LeetCode 的第一题:两数之和,但是我没有解题思路,你能告诉我吗?请用 Java 语言来完成。

把代码粘贴到 LeetCode 中测试了一下题解效率。你别说,还挺高,直接击败了 99.62% 的选手。

当然了,也可以直接在 VSCode 和 IntelliJ IDEA 中安装阿里的代码插件——通义灵码,工作中用他来辅助编码,开发效率也会提高很多。

另外,如果有小伙伴需要对 Qwen 2.5 进行微调的话,可以参考下面这个 issue,简单几步就可以把通义千问训练成你专属的模型。

https://github.com/modelscope/ms-swift/issues/2064

就在上周,法国的一家 AI 初创公司 Mistral AI 发布了首个多模态模型 Pixtral 12B,该模型在性能评测中就横向对比了 Qwen2-7B、LLaVA-OV 7B、Phi-3 Vision。

阿里的 Qwen 系列模型是唯一一个被拿来进行对比的国产大模型,这波真的是必须“表扬了?”。

那经过这一两年的沉淀,国产大模型在规模和性能上的确有了崛起的势头,这是一件值得高兴的事情。我看 hacker news 上也有 Qwen 2.5 的讨论了,热度还挺高。

正如我非常喜欢的一位博主卡神所说,“我们在通往 AGI 的路上,已经没有任何阻碍。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询