政策解读
-
国家数据局发布行业高质量数据集建设方案:AI的“燃料”问题有了国家方案
2026-06-10
适用对象:从事人工智能、数据服务、智能安防、低空经济、具身智能、智能驾驶等领域的企业
核心问题:这个政策对AI数据产业有什么影响?企业有哪些机会?
一、一句话核心:AI的“高标号燃油”有了国家生产标准
2026年6月8日,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》(国数科基〔2026〕25号),系统部署行业高质量数据集建设工作。
核心目标:到2028年底,建成一批覆盖重点领域、经过应用验证的行业高质量数据集,打造一批数据驱动人工智能创新发展的典型应用场景,培育一批具备领先优势的创新型数据企业和专业人才,形成一批行业高质量数据集建设工具和标准。
现状数据:截至2026年第一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB,日均词元(Token)调用量突破140万亿。当前人工智能正在从通用对话和内容生成向智能体、科学智能、具身智能和世界模型等方向演进,对行业数据的专业性、结构性、场景性和可验证性提出了更高的要求。但行业数据仍然存在分散沉淀、质量不高、标准不一、模型适配不强、应用验证不够等问题,制约AI在重点行业和复杂场景中的深入应用。
二、六大专项行动:全链条布局数据集建设
《实施方案》围绕行业高质量数据集的供给、流通、应用三大关键环节,部署了六个专项行动:
三、与应标网用户直接相关的重点领域
类别 具体领域 与应标网用户的关联 重点领域 科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、应急管理、公共安全、城市治理等19个领域 智能安防、智慧城市、风险监测、应急指挥等领域的数据基础 创新领域 低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个领域 与安全科技高度相关:低空安全、智能机器人、无人驾驶安全等 专家观点:低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域对多模态数据、仿真数据、物理交互数据和高精度标注数据需求较强,将带动数据采集、仿真建模、场景测试和模型训练等环节发展。
四、政策亮点:词元交易开创数据流通新模式
《实施方案》首次提出“探索词元交易等新型交易模式,构建以词元为基础,可量化、可定价的数据价值体系”。
什么是词元(Token)?
词元是AI大模型处理文本的基本单位。在AI训练和推理过程中,数据被分解为词元进行处理。将词元作为数据交易的计量单位,意味着数据价值可以从“按条/按GB”粗放定价,转向“按AI消耗量”精细化定价。
词元交易写入顶层设计的里程碑意义
“词元”首次写入国家文件,标志着数据交易完成了从资源到资产的范式跃迁中获得官方认可。传统的数据包买卖或项目制服务模式,难以支撑起一个规模化、高效率的要素市场。而“词元”作为一种可拆分、可计量、可追溯、可编程的价值载体,其核心价值在于能将千差万别的数据产品与服务,转化为可在市场中高效流通的“标准品”。
商业模式转型路径
阶段 模式 特点 当前 基础数据包销售 一次性售卖,难以持续 转型 API调用、订阅制、定制模式 持续收入,价值量化 未来 词元交易 按AI消耗量计费,精准计量 文件提出:发展“订阅模式”“商场模式”“定制模式”等多元服务形态,推动商业模式从基础数据包销售向API调用、模型化解决方案及全栈服务梯次跃升。
五、“数据飞轮”:以应用反哺供给
《实施方案》中提出的“数据飞轮”概念是理解未来数据生态运行逻辑的核心。它描述了一个“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的良性循环。
对企业意味着什么?
传统模式 “数据飞轮”模式 静态数据仓库建设 动态、价值不断增殖的生态系统 一次性数据售卖 持续性价值共创与收益分享 项目定制化服务 标准化“词元”产品 数据“搬运工”角色 数据“精炼师”和“平台运营者”角色 通过“词元化”交易,每一次数据被调用、每一次模型因新数据而优化所产生的增量价值,都可以被精准计量并反馈给数据提供方,从而激励更多高质量数据的持续供给。
六、国家数据集管理服务系统:政策+平台双轮驱动
国家数据集管理服务系统已正式上线试运行,与《实施方案》形成“政策+平台”双轮驱动,标志着我国高质量数据集建设从分散探索进入集约化、标准化、产业化发展的新阶段。
能力 功能 对企业价值 资源管理器 标准化数据集目录与管理规范,构建“物理分散、逻辑集中”管理体系 解决资源分散、底数不清问题 赋能工具箱 提供非结构化处理、智能标注、质量核验等工具链 降低数据集建设门槛 生态聚合场 查询检索、需求发布、供需对接 构建数据资源与应用场景的精准对接枢纽 安全压舱石 实名认证、凭证申领、内容检测、区块链存证 强化全流程安全管控和合规保障 七、政策红利:哪些企业将受益?
八、与《人形机器人与具身智能实景实训专项行动》的关系
两份文件均为2026年6月发布的AI产业重磅政策,相互补充、协同推进:
对比维度 《数据集建设方案》(本文件) 《人形机器人实景实训专项行动》 定位 AI的“燃料”供给 AI的“应用场景+本体” 核心 高质量数据集建设(19+5个领域) 实景实训空间+创新应用联合体 目标 2028年底建成一批高质量数据集 2026年底万台级规模落地 创新点 词元交易、数据飞轮 万台级应用验证、创新应用联合体 关联 为AI模型提供训练数据 为机器人产品提供真实场景验证 两者共同构成AI产业发展的政策支撑体系:没有高质量数据,AI模型无法训练;没有真实场景验证,机器人产品无法落地。
九、企业行动清单
优先级 行动项 建议部门 建议时限 ? 中 梳理企业数据资源底数,评估可作为数据集供给的潜力;重点关注应急管理、公共安全、低空经济等与安全科技相关的领域 数据管理部/技术部 1-2个月内 ? 中 关注数据标注产业扶持政策,积极申报相关认定;探索“人机协同+专家参与”的高端标注模式 项目申报部门 政策发布后跟进 ? 低 布局数据清洗、合成数据、质检等关键技术研发;关注仿真合成技术在稀缺场景数据生成中的应用 技术部 中长期规划 ? 低 探索词元交易等新型数据商业模式;关注数据集在数据交易所挂牌交易的路径 战略部/创新部 中长期规划 ? 低 关注低空经济、具身智能、智能驾驶等创新领域的数据需求,与链主单位建立合作 市场部 持续关注 ? 低 依托国家数据集管理服务系统,开展数据集登记、管理和流通 数据管理部 系统上线后跟进 十、常见问题(Q&A)
Q1:中小企业能参与数据集建设吗?
A:可以。文件明确培育数据标注龙头企业、独角兽企业、瞪羚企业,中小企业可通过技术创新和专业化服务进入政策扶持视野。同时,链主单位应“面向行业开放数据集并提供数据服务,赋能产业链上下游中小企业”,为中小企业获取数据资源提供了渠道。
Q2:词元交易什么时候能落地?
A:文件首次提出这一方向,属于探索性政策,具体落地时间取决于后续细则和试点推进。当前政策导向是推动商业模式从“基础数据包销售”向“API调用、订阅制”梯次跃升,建议相关企业提前布局研究。
Q3:这个政策与安全科技企业有什么关系?
A:智能安防、智慧城市、风险监测预警、应急指挥等应用高度依赖AI模型,而AI模型的性能取决于训练数据的质量和数量。《实施方案》明确将应急管理、公共安全、城市治理列入重点领域,将低空经济、具身智能列入创新领域,这些正是安全科技企业的核心业务场景。高质量数据集将直接提升安防AI的准确性和可靠性。
Q4:数据标注产业有哪些具体支持?
A:文件明确引导数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变,推动数据标注向专业化、智能化跃升。同时培育一批数据标注龙头企业、独角兽企业、瞪羚企业,支持有条件地区开展数据标注创新试验区建设。
Q5:什么是“数据飞轮”?企业如何参与?
A:“数据飞轮”指“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的良性循环。企业可通过“数据赋能工场”将原始数据加工为标准“词元”,并确保其在生态中安全、可信、高效地流通与增值。这一理念下,数据价值的实现路径从一次性售卖转变为持续性的价值共创与收益分享。
十一、总结
本文为应标网政策解读,仅供参考。具体以官方文件为准。