建设高质量数据集是落实《中共中央 国务院bet36体育在线构建数据基础制度更好发挥数据要素作用的意见》《“数据要素×”三年行动计划(2024—2026年)》,推动数据产业和数据标注产业高质量发展,推进“人工智能+”行动的重要抓手。当前,随着以Deepseek为代表的高效推理大模型快速发展和广泛部署,数据汇聚产量低、供给质量低、利用效率低的矛盾愈发突出,高质量数据集建设的重要性日益显现。应从供给、标准、安全、价值多向发力,做好高质量数据集建设工作,赋能行业高质量发展。
01高质量数据集建设面临“三低”难题
(一)数据汇聚产量低:数据存量小产量低,数据集汇聚共享效率有待加强。
一是高质量数据储备量低,中文数据规模较小。有关研究表明,应用于人工智能的数据集可能会在2026-2032年间耗尽所有高质量语言数据。此外,国际主流大模型数据集主要以英文为主,流行的Common Crawl数据集项目中文数据只占据4.8%。二是数据流通开放力度不足,公共数据获取渠道不畅。近年来,网络下载数据的通道不稳定,数据发布格式多样,跨部门、跨地区数据共享程度不足,数据孤岛现象依然存在,数据资源缺乏有效整合和利用。三是数据标注自动化程度不足,数据集产量与数据增速不匹配。2023年,我国数据生产总量达32.85泽字节,同比增长22.44%。然而,当前我国数据标注智能化、专业化程度较低,专业数据处理人员队伍数量缺口较大,数据集产量小,部分专业数据集无法规模化生产,难以满足专业场景需求。
(二)数据供给质量低:数据集质量良莠不齐,缺乏主流高价值数据引领。
一是数据集存在缺失、尺度不一问题。不同行业、系统产生的数据格式多样,受制于数据采集、加工过程中各类误差、工具手段稳定性等影响,数据集普遍存在分布偏差、颗粒度不一致、采集缺失甚至错误数据等问题。二是数据集混用影响训练效果。有关研究表明,在大模型的基准测试中相关数据被用于模型训练的情况越来越常见,导致大模型出现部分测试分数虚高、泛化能力下降、不相关任务表现骤降等问题,甚至可能导致大模型在实际应用中产生“危害”。三是数据集标准不一,各行业主流价值数据集引领带动作用未体现。当前,高质量数据集标准体系尚待完善,数据质量评估评价缺乏统一标准,政务领域、重点行业缺乏典型的主流价值数据集。
(三)数据利用效率低:算法偏见加剧数据遗失,数据要素价值挖掘短板明显。
一是算法偏见导致原始数据遗失率高。在大模型训练过程中,数据呈现长尾分布,为提高训练成功率,多数大模型算法采用“去尾”方法,即训练过程中对原始数据进行选择性“忽略”,因而导致数据遗失问题,甚至造成对原始数据的破坏。二是数据使用率较低。据统计,2023年,在我国存储的数据中,一年未使用的数据占比约4成,企业一年未使用的数据占比为超过30%,大量数据被存储后便不再被读取和复用,成为“死”数据。三是数据价值挖掘不足。数据加工能力不足导致大量数据价值被低估、难以挖掘复用。据统计,2023年,全国数据产存转化率为2.9%,海量数据源头即弃。在开展数字化转型的大型企业中,实现数据复用增值的仅有8.3%,数据价值挖掘效率极低。此外,高质量数据集的价值实现路径不清晰也引发企业运营建设积极性降低。
02从供给、标准、安全、价值四方面发力,推动高质量数据集建设赋能
(一)强化数据获取与共享,探索行业试点联合推进共建新模式。
一是加强物联网等数据接口开放,广泛汇聚高质量数据,提高原始数据直连比率。建立高质量数据集汇聚平台,推动重点行业高质量中文数据集、思维链数据集和主流价值数据集建设,支持行业专业机构深度参与数据集建设、训练、应用全流程。二是推动公共高质量数据集开放共享,搭建数据集共享平台,加快构建安全数字底座,支持由专业机构配合全流程数据开放合规工作,推动数据集高效安全开放共享。三是鼓励各地因地制宜出台指导意见,探索建立委托授权、模型训练知识产权保护豁免机制,试点行业间、地区间联合共建数据共享开放交流机制,逐步提升数据流通共享效率。
(二)完善质量与标准体系,推动建设重点行业数据集评价标准。
一是建立数据集质量评估标准,有机融入《国家数据标准体系建设指南》体系。加快研究制定《高质量数据集质量评测规范》等行业高质量数据集质量评估相关标准,建立安全风险、有害内容评估专业数据集,全生命周期把控数据集质量水平。二是制定重点行业、主流价值数据标注评估标准,规范数据集接口标准。加快研究制定《高质量数据集数据标注规范》,规范面向人工智能模型训练的高质量数据集数据标注流程。制定合成数据使用标准,平衡好合成数据与原始数据应用的“度”,助力共同发挥最佳作用。三是建立数据集流通应用质量评估标准。规范数据集使用、流通范围,明确数据集提供方、使用方、服务方权利义务,建设数据集应用效率评估体系,指导动态分配数据采集、标注资源,提升数据资源利用效率。
(三)加强数据隐私与安全保障,推动数据集安全评估能力建设。
一是强化数据集安全保障技术水平。加强数据伦理、风险评估监管判断技术工具研发,推动构建数据集隔离仓库、原始数据资源池、数据安全屋等措施,加强真实数据保护管理能力。二是建立对合成数据集的持续监控评估机制,加强多模态数据融合技术鉴伪能力,建设深度合成鉴伪检测平台,支持联邦学习、差分隐私、可信数据交换等AI安全技术工具发展。三是建立跨行业产学研合作平台,加强研究人员、数据工程师、行业专家多方紧密合作,增强算法与数据的匹配度。提高模型算法水平,在数据集处理全过程加入数据可靠性评估分析,提升数据资源利用效能。
(四)优化数据集运营模式,推动数据资源价值生态循环落地。
一是搭建全国一体化的行业高质量数据集供需对接机制和平台,建立数据集资源地图,促进高质量数据集供需对接,推动数据集的流通和共享。二是加强政策引导,完善数据集定价和收益分配机制,鼓励企业探索商业模式创新,实现数据集的可持续发展和应用。加快形成面向高质量数据集的价值循环体系,打造数据集产业生态。三是因地制宜挖掘优势产业,分类开展行业高质量数据集的建设运营及应用工作,以试点先行,逐步推广方式,推动实现区域、行业数据标注产业和数据集建设生态有序发展。发布高质量数据集建设典型案例,为行业和地方开展高质量数据集建设提供靶向支撑。