我要投稿

Llama-3 120B用过的都说好，Ollama+48G显存可跑！

发布日期：2024-05-14 16:16:56 浏览次数： 2953 来源：PaperAgent

Meta-Llama-3-120B-Instruct已经排进Huggingface热门排行Top10，它是一个由"Meta-Llama-3-70B-Instruct"自我合并而成的模型，使用MergeKit工具进行合并的。

来自网友的评价

Llama3-120B 在这些难题上确实展现了比GPT-4更高的智能

query：观察希格斯场会改变它的状态吗？

GPT-4 -> 不会
Llama3-120B -> 只有在我们质疑量子力学的哥本哈根解释时，让我来解释一下...

https://twitter.com/spectate_or/status/1787308316152242289

让Llama-3-120B解释下面的笑话（实际上是发生的）

它轻松地击败了im-also-a-good-gpt2-chatbot和im-a-good-gpt2-chatbot。

https://twitter.com/spectate_or/status/1788031383052374069

llama3-120B 在 bfloat16 格式下表现相当出色

它在数学和编码方面有些软肋，但这是我见过的首个能够可靠地在各种任务上与 Opus 和 GPT-4 竞争的开源模型（OSS model）。通过良好的微调（finetune）和一些额外的人类反馈强化学习（RLHF），它可能接近于匹敌。

https://twitter.com/_xjdr/status/1787666447612985456

有趣的话题：Meta-Llama3-120B原生的自我合并Llama3以击败GPT4

虽然并不倡导视频中的所有观点

https://twitter.com/GG_Ashbrook/status/1788365679860596957

Llama3-120B版本交流——这玩意儿太聪明了

它不再让我随意摆布。它有自己的主意。

https://twitter.com/erhartford/status/1787050962114207886

Ollama+Llama3-120b

通过ollma使用llama3-120b-Q4-K_M量化版本，48G显存、38G RAM就可以run起来

智能出现：数据+模型深度?

Llama3-120b与Llama3-70b唯一的区别是额外的层，甚至是复制的层。没有训练新信息。因此，这种智能水平确实是从模型的深度中涌现出来的。它不仅仅是训练数据的一个函数。它是数据和深度的结合。

这表明：智能的出现不仅仅是由于训练数据的量，而是数据和模型深度（即模型的复杂性或层数）的结合结果？？？

Llama3-120b配置信息

slices:- sources:- layer_range: [0, 20]model: meta-llama/Meta-Llama-3-70B-Instruct- sources:- layer_range: [10, 30]model: meta-llama/Meta-Llama-3-70B-Instruct- sources:- layer_range: [20, 40]model: meta-llama/Meta-Llama-3-70B-Instruct- sources:- layer_range: [30, 50]model: meta-llama/Meta-Llama-3-70B-Instruct- sources:- layer_range: [40, 60]model: meta-llama/Meta-Llama-3-70B-Instruct- sources:- layer_range: [50, 70]model: meta-llama/Meta-Llama-3-70B-Instruct- sources:- layer_range: [60, 80]model: meta-llama/Meta-Llama-3-70B-Instructmerge_method: passthroughdtype: float16

https://hf-mirror.com/mlabonne/Meta-Llama-3-120B-Instruct

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

爆肝50小时，DeepSeek使用技巧，你收藏这一篇就够了！

2025-02-01

我把最近爆火的 DeepSeek-V3 接到了 Cursor！

2025-01-01

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

一文读懂DeepSeek-R1本地部署配置要求（建议收藏）

2025-02-04

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

更改ollama模型存储路径

2024-04-25

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

大家都在问

如果使用AI工具有段位，你是青铜还是王者？

2025-03-31

OWL团队万字分享：复现Manus最好的团队，如何看待Agentic AI的落地现状？

2025-03-31

如何利用Dify轻松构建你的专属语料库？

2025-03-31

专利答复3天→3小时！AI神器Claude 3.7如何让审查员秒批你的申请？

2025-03-30

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

MCP 很火，来看看我们直接给后台管理系统上一个 MCP？

2025-03-30

揭秘Embedding模型选型：如何用向量技术突破知识库的智能天花板？

2025-03-30

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB