6月14日,备受瞩目的2024北京智源大会正式拉开帷幕。作为大会的重要组成部分,智源大会“人工智能+数据新基建”论坛同步召开。会上重磅发布了“北京人工智能数据运营平台”,包括平台上线、重磅数据集开源和数据工具FlagData3.0,并启动了“行业数据集—场景应用创新计划”,为千行百业大模型落地打下了坚实的数据基础。
“北京人工智能数据运营平台”是在国家发展改革委、国家数据局的指导下,由北京市发展改革委牵头,在市委网信办、市科委、市经信局、海淀区政府、中国网络空间安全协会人工智能安全治理专委会等单位的大力支持下,由智源研究院联合京能数产等单位共建推动成立的开放型数据运营平台。
该平台不仅能够实现数据的汇聚管理、处理与加工等基本功能,还能提供多种模态的数据标注功能,支持多种数据汇聚和使用方式。目前,平台已汇聚超过700万亿字节的通用数据集和4.33万亿字节的行业数据集,未来还将继续扩充数据规模,为大模型行业发展提供强大的数据支撑。
“此次开源的行业数据集,几乎每一项都超越了全球已经开源的同类数据集总和,堪称全球最大的多行业中英双语数据集。” 智源研究院副院长兼总工程师林咏华表示,目前数据集涵盖医疗、教育、法律、新闻等18类行业数据,未来将进一步扩展到30类左右,为各行各业发展提供更全面的数据支持。
为了促进数据资源的有效利用,平台目前支持开源开放、积分共享、数算一体三种数据运营模式。其中,“开源开放”模式允许用户在遵守使用协议的前提下免费下载使用;“积分共享”模式面向数据工作组内的成员,根据数据贡献进行积分制管理,成员单位贡献数据,将按照计分标准获取相应积分,并享有共享数据的权利;“数算一体”模式针对高价值数据,仅在平台上进行数据加工和训练使用,确保数据安全不外泄。
依托数据运营平台,海淀区会同智源研究院等单位积极推动政务、社会与企业数据开放共享,打破数据孤岛,推动数据资源的有效利用。同时,海淀区积极探索建设北京数据基础制度先行区,统筹布局算力与数据存储基础设施,为数据资源创新应用提供技术与制度保障。
未来,海淀区将以加速构建具有全球影响力的人工智能创新策源地和产业高地为目标,整合数据要素、应用场景等多方资源,推动人工智能技术迭代发展与落地应用,以高质量数据要素驱动人工智能技术创新突破,为实现科技强国贡献力量。