微信扫码
与创始人交个朋友
我要投稿
近年来,大模型技术发展迅速,并已在多个领域展现出强大的能力。为了推动大模型技术的普及和应用,许多机构和企业纷纷开源了自己的模型。近日,Bilibili 发布了全新的开源大模型系列——Index-1.9B,该模型凭借着 2.8T 的海量训练数据和独特的训练策略,在代码生成、对话交互、角色扮演等方面展现出出色的性能,并与同级别模型相比处于领先地位。
Huggingface模型下载:https://huggingface.co/IndexTeam/Index-1.9B
AI快站模型免费加速下载:https://aifasthub.com/models/IndexTeam
Index-1.9B 系列包含 4 个模型:Index-1.9B base、Index-1.9B pure、Index-1.9B chat 和 Index-1.9B character。每个模型都拥有独特的特点和优势:
Index-1.9B base: 作为基座模型,拥有 19 亿非词嵌入参数量,在 2.8T 中英文为主的语料上预训练,并采用了多种优化策略,例如 Norm-Head 技术和合理的模型深度,使其在多个评测基准上与同级别模型相比处于领先地位。
Index-1.9B pure: 作为基座模型的对照组,与 base 模型具有相同的参数和训练策略,但严格过滤了所有指令相关的数据,以此来验证指令对模型性能的影响。
Index-1.9B chat: 基于 Index-1.9B base 模型,经过 SFT 和 DPO 对齐后的对话模型。由于预训练中引入了较多定向清洗的对话类语料,该模型在聊天趣味性方面表现更强。
Index-1.9B character: 在 SFT 和 DPO 的基础上,引入了 RAG(Retrieval-Augmented Generation,检索增强生成)技术来实现 few-shots 角色扮演定制。
Index-1.9B 模型在预训练阶段使用了 2.8T 规模的数据,中英比例为 4:5,代码占比 6%。此外,团队还精心收集了公开可用的书籍、百科、论文、STEM 相关的精选数据,这部分占比约 10%。为了确保数据质量,DeepSeek团队对数据进行了严格的清洗和过滤,并针对模型结构、学习率、预训练数据等方面进行了深入的实验和优化。
Index-1.9B 模型在多个评测基准上展现出令人印象深刻的性能,在代码、数学、通用语言理解、角色扮演等方面都取得了不错的成绩:
通用任务: Index-1.9B 在 MMLU、CEVAL、CMMLU、HellaSwag、Arc-C、Arc-E 等多个评测基准上表现优异,超越了同级别模型,例如 RedPajama-INCITE-3B、OpenLLaMa-3B-v2、BTLM-3B-8K-Base、StableLM-Alpha-3B-v2 等。
代码生成: Index-1.9B 在 GSM8K 和 HumanEval 两个代码评测基准上,表现优于 Llama2-7B 和 Llama2-13B 等模型,展现出强大的代码生成能力。
角色扮演: 在 CharacterEval 角色扮演评测中,Index-1.9B 的整体均分排名第九,显著优于其他同级别模型,展现出不错的角色扮演能力。
Index-1.9B 模型的轻量级和多功能性,使其拥有广泛的应用场景:
学术研究: 为研究者提供一个可复现、可解释的平台,推动大模型技术的发展。
工业应用: 可以被应用于各种需要自然语言处理技术的行业,例如金融、医疗、电商等,为企业提供更加智能化的服务。
个人用户: 可以为个人用户提供智能助手、创作工具等服务,提升生活效率和娱乐体验。
Index-1.9B 的开源,为开发者提供了更多选择,并为大模型技术的普及和应用创造了新的可能性。Bilibili 的这一举措,将进一步推动大模型技术的发展,并为 AI 领域带来更多创新和应用。
模型下载
HuggingFace
https://huggingface.co/IndexTeam/Index-1.9B
AI快站模型免费加速下载
https://aifasthub.com/models/IndexTeam
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01