微信扫码
与创始人交个朋友
我要投稿
今天是2024年9月12日,星期四,北京,天气阴
本文来看三个点:
一个是20240911大模型侧相关早报回顾,社区例行活动,对跟进前沿有直接帮助。
另一个是关于文本embedding进展,Late Chunking,很简单的一个trick,用来照顾长文本,但前提是需要有一个长文文本模型,代价较高。
第三个是关于大模型幻觉不可避免的数学验证,这个论证实验很有意义,有理有据,值得大家警醒。
供大家一起参考并思考。
我们来关注昨日大模型进展早报,这是社区主要集中在开源进展、关于文本embedding进展、关于大模型下游训练数据选择、大模型幻觉,以及一些实践项目,文字版见社区。
其中,关于多模态方面进展。
Mistral AI发布模型pixtral-12b-240910:https://github.com/mistralai/mistral-common/releases/tag/v1.4.0,https://huggingface.co/mistral-community/pixtral-12b-240910
基础模型方面,使用Mistral Nemo 12B,视觉适配器 (Vision Adapter) 参数量4亿,使用GeLU(Gaussian Error Linear Unit,用于视觉适配器)和2D RoPE(二维旋转位置编码,用于视觉编码器);
架构方面,采用40层、14,336个隐藏维度大小和32个注意力头,配备了400M的专用视觉编码器,支持1024x1024图像尺寸和 24个隐藏层的高级图像处理。
性能方面,在开源模型的对比上,榜单上效果还不错。
另一个是语音方面开源进展。TTS模型Fish Speech,最近发布1.4版本,使用70万小时的多语言数据进行训练,适用于英语、中文、韩语、日语、法语、德语、阿拉伯语和西班牙语八种语言:https://github.com/fishaudio/fish-speech,huggingface.co/spaces/fishaudio/fish-speech-1
在部署要求上,GPU 内存: 4GB (用于推理), 8GB (用于微调)
微调脚本:https://speech.fish.audio/zh/finetune/
推理脚本:https://speech.fish.audio/zh/inference/#2-token
先来看提出背景,
在传统的文本处理中,为了提高检索效率,文本通常会被分割成更小的块,然后分别进行编码。
但这种方法可能会导致上下文信息的丢失,从而影响嵌入向量的质量。
例如:
Figure 1 展示了在传统的文本块编码方法中,上下文信息丢失的问题。在这个例子中,一个关于柏林的维基百科文章被分割成了几个文本块。可以看到,像“its”和“the city”这样的短语实际上是在指代“Berlin”,而“Berlin”这个词只在第一句话中提到。
这种分割方式会导致以下问题:
最近的工作 《Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models》,https://arxiv.org/abs/2409.04701,https://arxiv.org/html/2409.04701v1,一种名为“late chunking”的新方法,用于改善文本检索系统中的文本块(chunk)嵌入表示。
现在来看实现路径,从基本实现思想上看,
“late chunking”方法的核心思想是利用长文本嵌入模型首先对整个长文本的所有标记(tokens)进行编码,然后在转换器模型之后、平均池化(mean pooling)之前进行文本块的分割。这样,每个文本块的嵌入都能够捕捉到整个文本的上下文信息,从而在各种检索任务中取得了更好的结果,而且不需要额外的训练。
其实现步骤为:
Figure 2 通过对比图示解释了“naive chunking”(简单分块)策略和“late chunking”(晚期分块)策略在文本嵌入过程中的不同之处。
左侧:Naive Chunking(简单分块)
右侧:Late Chunking(晚期分块)
其中的chunk,每个都是之前预先分割好的。所以,整个思路其实也很粗暴。
关于大模型幻觉,我们已经讨论了很多,而大家也越来越清醒的认识到,幻觉并不能消除。
最近的工作 《LLMs Will Always Hallucinate, and We Need to Live With This》,https://arxiv.org/abs/2409.05746,https://arxiv.org/html/2409.05746v1,认为LLM结构固有的局限性导致其生成“幻觉”在数学上是不可避免的,尽管我们可以采取各种策略来尝试减少幻觉,但它们是 LLMs 固有的一部分,永远无法完全消除。
先看几个观点:
首先, 幻觉的不可避免性:作者认为,LLMs 中的幻觉不是偶然的错误,而是这些系统的基本特征。幻觉源于 LLMs 的数学和逻辑结构,因此无法通过架构改进、数据集增强或事实检查机制完全消除。
其次,计算理论和哥德尔不完备性定理:文章利用计算理论和哥德尔的第一不完备性定理来说明 LLMs 在编译训练数据、事实检索、意图分类和文本生成等每个阶段都可能产生幻觉。
最后,识别和减轻幻觉的策略:识别 LLM 幻觉和减轻幻觉的策略,包括思维链(Chain-of-Thought)提示、自我一致性、不确定性量化和忠实解释生成。
本文主要来看三个点:
一个是20240911大模型侧相关早报回顾,社区例行活动,对跟进前沿有直接帮助。
另一个是关于文本embedding进展,Late Chunking,很简单的一个trick,用来照顾长文本,但前提是需要有一个长文文本模型,代价较高。
第三个是关于大模型幻觉不可避免的数学验证,这个论证实验很有意义,有理有据,值得大家警醒。
跟进前沿,并有更多深度思考,总是有意义的,大家可以持续跟进。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-22
花60元,DIY了一个AI机器人,能聊天,会认人……
2024-12-21
基于AI智能助理的软件开源组件安全检查
2024-12-21
Llama2024年度要点总结
2024-12-21
重磅! Github Copilot 免费了
2024-12-20
万字长文帮你搞定AI Agent选型
2024-12-20
微软开源的 Markitdown 可将任意文件转换为 Markdown 格式,PDF 解析咋样?
2024-12-20
Claude的MCP(模型上下文协议)简介
2024-12-20
历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物
2024-05-06
2024-07-25
2024-08-13
2024-06-12
2024-07-11
2024-06-16
2024-07-20
2024-09-20
2024-06-15
2024-07-25
2024-12-20
2024-12-19
2024-11-22
2024-11-19
2024-11-13
2024-11-13
2024-10-07
2024-09-22