主要建设包括数据基础、开发、治理、资产运营、安全管理与服务开放等在内的高质量数据集服务平台。(1)预训练集涵盖文本、图像、视频3种模态数据,文本数据集源数据规模≥20TB,清洗后≥2TB;图像数据集源数据规模≥25TB,清洗后≥5TB,图像≥500万张;视频数据集清洗后≥500TB,总时长≥2万小时;清洗后的预训练集重复率不高于50%;(2)清洗后的指令微调数据集≥45万条,重复率不高于1%;(3)测试数据集≥12万条;(4)项目建成后,数据集每年服务不少于5个大模型研发。
工程备注: 截止目前2025年12月18日,该项目处于设计阶段,预计2026年1季度开工