3月29日,以“数据驱动,智绘未来”为主题的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会举办。会上,北京国际大数据交易所(以下简称“北数所”)牵头正式发布首批100个人工智能大模型高质量训练数据集,经联盟牵头推荐,中关村数字媒体产业联盟成员单位新华网、山东工艺美术学院、中国搜索、中文在线、北京服装学院、硅星人等院校、企业的高质量数据集入选。
通过北数所进行人工智能数据集进场交易,将更好的为模型训练提供更加合规可靠、便捷化、规模化的数据服务,进一步提高数据来源合规性,降低数据交易成本。
未来,中关村数字媒体产业联盟还将持续在数字媒体领域的高质量数据集提供、数据安全保障等方面,不断提升服务能力,汇聚和储备大模型训练所需的高质量语料集,通过在可信数据空间打造集数据托管-数据标注-数据训练-数据交易于一体的数据可信流通体系,为人工智能大模型训练提供合规高效、安全有序的数据支撑,与合作伙伴共同推动北京数据基础制度先行区人工智能数据训练基地建设工作。
本次大会发布了第一批人工智能大模型高质量训练数据集。该数据集是北数所联合北京人工智能产业联盟共同征集的,包括中科院大气物理所、北京科学技术研究院、山东工艺美术学院、中国知网、中汽智联、北方健康、中文在线、中国搜索、牡丹集团、新华网、北京服装学院、硅星人等36家机构及企业提供的大模型语料训练数据,共同为先行区人工智能训练场示范基地建立模型训练语料资源库。
首批发布的数据集覆盖科技创新、金融服务、医疗健康、医药研发、自动驾驶、气象服务、商业航天、影视创作等20多个应用场景,共计100余个语料数据,数据总量逾150PB,涵盖了专业知识问答、古今文化书籍、互联网舆情资讯、多语种音视频、教学资源题库、科研数据、高清图片等多领域、多模态的数据语料