AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Bilibili发布Index-1.9B大模型:没错,就是那个二次元B站
发布日期:2024-06-14 04:44:41 浏览次数: 2407





1. **模型简介**:

   - Index-1.9B系列是轻量级的语言模型。

   - 包含`Index-1.9B base`、`Index-1.9B pure`、`Index-1.9B chat`和`Index-1.9B character`等模型。

   - 模型已在HuggingFace和ModelScope上开源。


2. **预训练**:

   - 模型在2.8T的数据上训练,涵盖中英文等多种语言。

   - 数据经过清洗,包括避免偏置和去重。

   - 使用SentencePiece训练BPE Tokenizer,特别针对中文进行了优化。


3. **模型架构**:

   - 与主流的Decoder-Only Transformer模型一致,进行了一些调整,如更深的模型层数(36层)和Norm-Head机制。


4. **训练过程**:

   - 使用AdamW优化器,两阶段训练策略(Stable和Decay阶段)。

   - 训练基建使用了自研训练框架和华为昇腾910B卡。


5. **评测**:

   - 使用OpenCompass框架进行评测,包括综合性选择题、理解和推理、数学和代码评测。


6. **讨论和实验**:

   - 探讨了模型结构、学习率、预训练中是否加入指令等因素对模型性能的影响。

   - 进行了消融实验,分析了不同组件对模型性能的贡献。


7. **对齐**:

   - 通过SFT(Supervised Fine-Tuning)和DPO(Direct Preference Optimization)进一步优化模型,以符合人类偏好。


8. **角色扮演**:

   - 利用RAG(Retrieval-Augmented Generation)技术,实现few-shot角色扮演定制。


9. **局限性**:

   - 尽管采取了合规性检测,但模型可能存在未预料到的问题,使用时需注意潜在风险

以上由Kimi总结,0 shot。原文档字有点小,凑合看吧。在公众号后台回复“B站”获取原文档。



//


END.


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询