我要投稿

社区供稿 | 智源研究院中文互联网语料库 CCI 2.0 开放，打造大模型数据“共建-共享”新模式

发布日期：2024-05-17 07:00:18 浏览次数： 2128 作者：Hugging Face

以下文章来源于智源研究院

4月26日，中关村论坛年会数据安全治理与发展论坛在北京成功举办，在论坛上，智源研究院正式发布了中文互联网语料库 CCI 2.0 (Chinese Corpora Internet，简称 CCI)，规模约 500G，涵盖 1.25 亿个网页。

数据集下载地址：

数据集国内平台下载:
Hugging Face 下载:

严格的数据处理方式

为保障“中文互联网语料库 CCI 2.0”的合规性和高质量，智源研究院对总量为 8TB 的原始互联网数据进行了严格的清洗、过滤等处理。

高质量筛选。CCI 1.0 数据集是对 1000 个可信站源进行十分严格的筛选而形成的 100G 高质量可信数据集。本次，在此基础上进一步放宽可信站源范围，对总量8TB的原始互联网数据进行筛选，形成了更大的 CCI 2.0 高质量可信数据集。
格式清洗。按照严格制定的格式规范，对原始数据进行去除表情符号、去除控制字符与特殊字符、去除个人隐私等处理。
安全过滤。采用安全过滤模型对去重后的数据进行安全过滤，对涉及政治、色情、违禁品等负面信息进行过滤，提升数据的安全性。

打造“共建-共享”合作机制，持续推动高质量语料的迭代更新

为了推动产业持续贡献、共建高质量人工智能数据集，智源研究院联合多家企业单位成立数据集工作小组，打造了“贡献—共享”的数据运营方式。

同时，智源研究院联同京能数字产业有限公司，搭建了首个数据集“共建-共享”平台，数据贡献单位通过贡献的数据集数量和质量，获得评定的积分，然后通过该平台以积分兑换方式进行数据集下载。同时，智源研究院牵头组织数据集工作组制定了文本语料共享清洗过滤规范，建立了内容清洗过滤规则共享机制。

制定数据“共建-共享”积分机制，推动数据集工作组可持续发展
智源研究院与数据集工作组成员单位共同探讨并制定了数据“贡献-共享”积分机制，对贡献数据的 20 余家单位进行初步评分，对普通互联网数据、稀缺数据进行分类评价，涵盖格式合规、来源可信、覆盖站源等评分维度。
搭建数据集“共建-共享”平台，推动数据集积分机制落地实施
基于数据“贡献-共享”积分机制，智源研究院开发搭建了数据集“共建-共享”平台，完成了包括智源研究院在内的 20 余家数据贡献企业提供的 58 个数据集 (超过 200TB 数据量) 的上线。平台集成数据集检索与管理、用户管理、积分管理等功能，可支持首批数据贡献单位按照积分情况进行兑换下载。该平台面向数据贡献单位开放，实现数据集的“共建-共享”激励体系。
制定文本语料共享清洗过滤规范，为高质量的中文语料库形成指引
为了进一步提高语料共享的效率和质量，在语料共享清洗方面形成统一规范和技术要求，促进人工智能行业健康发展，数据集工作组编制了《文本语料共享清洗过滤规范（征求意见稿）》，以指导工作组成员单位在大模型训练中开展文本语料的共享清洗过滤。该规范包括范围、规范性引用文件、术语和定义、概述、语料共享文件要求、信源过滤、格式清洗、内容过滤和数据去重等九部分内容。
共同打造数据过滤与治理标准，形成语料数据共治模式
为了共同打造数据过滤与治理标准，形成语料内容清洗过滤规则，工作组建设了内容清洗过滤规则的共享机制，各单位共享过滤规则，进行数据过滤，形成语料数据共治模式。工作组编制了《内容清洗过滤规则评分方法（草案）》，综合工作组成员单位贡献数据过滤规则的数据规模与数据质量，用于对各单位的贡献度进行评价。
推动行业专用数据集建设，支撑重点行业智能化升级
在此次论坛上，智源研究院还发布了由数据集工作组成员单位杭州医策科技有限公司牵头构建的医疗行业数据集 MDH-Patho，该数据集是病理领域的图像数据集，总量达 58000+ 图片，约 15GB。包含细胞病理、免疫组化病理、组织病理的病灶级图像块数据，均已进行脱敏操作。时间跨度为 2021 年 4 月至 2023 年 12 月。细胞病理数据占比约 23%，免疫组化病理数据占比约 20%，组织病理占比约 57%，可用于病理图像等方面研究。

MDH-Patho 数据集下载地址:

未来工作

数据是生成式人工智能发展的重要生产要素，数据的质量与安全也是下游人工智能模型的性能与应用安全性的决定性因素之一。智源研究院将持续与多家单位共同为中文领域增添更多高质量、符合安全要求的数据集。一方面联合共建单位扩充数据来源，另一方面创新数据处理方法与流程，提升数据清洗与过滤的效率和可靠性。欢迎学界专家与业界同仁加入共建共享行列，一同打造生成式人工智能的压舱石。

作为非营利研究机构，智源研究院秉承开源开放精神，持续推动中国高质量中文数据资源的有效利用。我们致力于加速数据处理标准、技术、工具以及支持平台的研发，以提升数据处理的效率和质量，已经开放的主要成果包括：

2021 年，智源推出全球最大语料库 WUDAO copora，开放 200GB 高质量低风险中文语料，由 400 余个产学研单位合作，已有 770 多个研发团队申请，为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务，有效支撑全球大模型相关研究。
2023 年 6 月，开放最大规模、可商用、持续更新的中文开源指令数据集 COIG，由来自全球 40 余个机构的 100 多名工程师共同参与，创造了跨越国界、紧密合作的全球数据开源成果。
2023 年 9 月，开源全球最大的中英文文本对语义向量模型训练数据集 MTP (massive text pairs)，数据规模达 3 亿对 (其中中文 1 亿，英文 2 亿)。文本主题丰富，源自海量优质文本数据，涉及搜索、社区问答、百科常识、科技文献等多种主题。由该数据集训练得到的语义向量模型 BGE (BAAI General Embedding) 性能大幅领先同类别模型。
2023 年 11 月，开源高质量、高可信中文互联网语料库 CCI 1.0，规模为 104GB。数据集总体的时间跨度为 2001 年 1 月至 2023 年 11 月。