5月9日上午,第二届数据空间大会在合肥成功举办。本次大会由合肥综合性国家科学中心数据空间研究院和中国科学院计算技术研究所共同举办。

中国工程院设立“国家数据空间发展战略研究”重大咨询项目组历经一年,对数据空间概念的基本规律、基础设施、建设思路、发展方向等四方面进行分析研究,编著产出的《数据空间发展战略蓝皮书》在本次大会上发布,为我国率先掌握数据要素和持续实施数字技术革命擘画蓝图。

    

蓝皮书

中国工程院设立“国家数据空间发展战略研究”重大咨询项目

“国家数据空间发展战略研究”重大咨询项目课题设置

本蓝皮书旨在为我国率先掌握数据要素和持续实施数字技术革命擘画蓝图

数据基础设施建设路径

  现场同期还发布了“数据要素场技术体系”“罗盘:复杂网络计算平台”“原子大模型与开源社区”三项优秀成果。其中,数据要素场技术体系包含数据要素场V1.0、数据要素基础元件的标准化抽象——数据件、跨域数据治理方法论与集成化数据治理平台、面向数据要素交易的自主化竞价博弈平台四项内容。

  成果一:数据要素场技术体系

   (一)数据要素场V1.0

  该成果由合肥综合性国家科学中心数据空间研究院研发。数据要素场聚焦数据跨域流通关键问题,成果突破数据原子化封装、全域化治理、低熵化流通、聚变式处理、穿透式安全等数据流通关键技术,实现数据流通的全程可控,支持数据要素与数据主体、数据应用的“解耦”,支持跨域数据的语义统一、高效融合、统一查询,支持海量数据聚变释放,支持跨层级、跨地域、跨行业、跨设备的高效可靠数据分发,支持数据的统一标识编码和交换模型构建。

  数据要素场面向医疗、社会治理、农业、产业创新、跨境等重点场景领域,在合肥、芜湖、上海等地支撑卫健委、公安、医院、保险机构等数据提供者和使用者的数据高效流通利用,并打造了包括专病研究、矛盾调解、贷款担保、产业链分析、物流跨境等场景示范应用。

数据要素场概览

数据交换--数据交换模型(NDEM)

 (二)数据要素基础元件的标准化抽象——数据件

  该成果由中国科学院计算技术研究所研发。数据件是数据要素流通使用的基本单位,通过对数据要素的标准化封装,支撑数据要素和数据主体、数据应用“解耦”,实现全网加工“要素化”数据。数据件相关技术已发表顶会论文(SIGIR、CIKM等)10余篇,授权相关专利19项,新申请专利12项。数据件技术成果包括以下内容:形成数据件标准化封装技术体系;突破数据件广谱关联发现技术;构建数据件协同计算框架。目前,数据件系统已在郑州城市算力网中进行试点应用,针对大模型高效训推与BI类统计分析场景,自动构建向量索引库与预聚合中间态。在应用时可大幅缩减数据加工链路,实现数据要素的即插即用。

数据件建设目标

数据件封装结构与特性

数据件价值转换链路

 (三)跨域数据治理方法论与集成化数据治理平台

  该成果由中国人民大学依托面向城市智能服务的数据治理体系与共享平台重点研发计划项目研发。提出了“以对象为中心”数据治理方法论体系,出版了《跨域数据治理》专著,提交了“信息技术 大数据跨域数据可信共享”国家标准送审稿,研制了集成化数据治理工具集、基于区块链的可信高性能工作流引擎,相关成果获服务计算领域顶级会议ICWS的最佳论文、ACM SIGMOD Research highlight奖,在浙江“一数一源一标准”治理系统和北京市大数据中心大数据平台综合库等进行了应用示范。

《信息技术 大数据 跨域数据可信共享》

《跨域数据治理》专著

集成化数据治理与共享平台

 (四)面向数据要素交易的自主化竞价博弈平台

  该成果由合肥综合性国家科学中心数据空间研究院、中国科学技术大学共同研发。面向大模型垂域化场景,创新性地搭建了一个数据要素交易的自主化竞价博弈平台,该平台涵盖了丰富的垂域场景数据要素,并提出了大模型驱动数据智能估值、智能体自主竞价和竞价博弈均衡演绎的技术体系,构建了“价值评估-自主竞价-均衡演绎”的全景式框架。

  本成果聚焦于金融、医疗、推荐和生化等四个重要领域,充分整合了文本、图像等不同模态场景的数据集,为垂域大型模型开发提供了数据要素基础。在不同的拍卖机制下通过自主竞价的方式达成市场均衡,并最终根据竞价博弈的均衡信息,包括各个买家的出价策略演化与最终出价结果、策略组合的可利用度以及买卖双方的收益演化与分配比例等方面进行了全方位的分析与研究。

各种数据要素

智能体自主竞价—智能体模拟

  成果二:罗盘:复杂网络计算平台

  该成果由合肥综合性国家科学中心数据空间研究院、中国科学技术大学共同研发。罗盘复杂网络计算平台提供包括社交网络、金融网络、信息网络等10类100+经典数据集,以及包含链路预测、社团检测、网络传播、重要节点识别和高阶网络等5大研究方向的100+权威算子,数据和算子均可实现自定义组合建模,形成了复杂网络计算体系,有助于打造互惠共赢的合作生态,激发创新性探索合作和成果共建共享。

  平台将为发展下一代数据空间复杂网络建模、大规模复杂网络计算等高水平科研活动提供全链条支撑,助力提升复杂系统和复杂网络领域的研究水平,建立复杂网络科学研究生态,推动跨学科合作,形成国际一流国内领先的复杂网络计算与科研平台,为支撑网络空间安全等国家重大战略需求发挥重要作用。

  平台网址:www.scicompass.com

  成果三:原子大模型与开源社区

  该成果由合肥综合性国家科学中心数据空间研究院研发。针对企业、个人和边缘设备场景,分别训练了Atom-13B、Atom-7B和Atom-1B三个通用基础模型,在语言理解、文本生成、任务执行等方面达到国内先进水平,跻身中文大模型领先梯队。原子大模型在HuggingFace全球下载量超过20万,Github获得超过1万星标。

  原子大模型在情感能力、推理能力、长文本理解能力、网络信息获取等方面展现出了较强优势,目前已扩展了搜索增强功能、工具调用功能、角色定制功能等。

  Llama中文社区,目前是Github排名第一的LIama中文开源社区,社区集模型开源、技术开放、数据共享、算力对接、培训教学、项目孵化等多位一体,紧紧围绕了数万名国内顶级大模型领域的技术开发者和行业应用者。社区开源平台包含模型、算力、项目、Wiki、学堂、应用广场、开发者中心,已发展为国内顶尖的综合性大模型开源社区。

  大模型开源社区官网:https://llama.family 

Llama中文社区主页

Atom通用大模型