欢迎来到赏识居学术网官网!

微信公众号

高能物理科研大数据平台现状、需求及关键技术

点击量:0

发布日期:2018-11-12 15:33

当前,人类正在迈入一个前所未有的大规模生产、消费和应用大数据的时代。大规模科学研究,以及近几年互联网、物联网的快速发展,把人类带入了“大数据时代”。根据数据的来源,大数据可以粗略地分成两大类:一类来自物理世界,另一类来自人类社会。前者多半是科学实验数据或传感数据,后者与人的活动有关系,特别是与互联网有关。欧洲核子中心的大型强子对撞机LHC(Large Hadron Collider)上的探测器每年产生的数据量达到 25 PB。用电子显微镜重建大脑中的突触网络,1 mm3大脑的图像数据就超过 1PB。同时,人们的日常生活与网络关联得越来越紧密,海量的数据在网络中产生、传输、存储、处理。据 IDC(Internet Data Center)公司统计,2011 年全球来自于个人的数据(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200 PB)。根据 2012 年 IDC 的数字宇宙研究报告,人类在 2010 年步入 ZB(1ZB=1×106PB)时代后,到 2020 年数据量将增长50 倍(图 1)。
  无论科学实验数据还是人类社会产生的数据,最终只有在大数据计算平台上进行分析处理,才能将数据转换成知识和信息,发挥出大数据的价值。
  本文首先介绍科研模式的转变以及科研大数据的需求和现状。然后,针对科研大数据平台中的关键技术,包括数据采集、数据存储、数据传输、数据处理以及共享和安全进行分析。最后,结合高能物理领域的数据处理对科研大数据平台的一些实践进行介绍。
  1 科研大数据及其计算平台现状
  1.1 科研模式的转变
  人类探索世界的脚步永无止境,而科学研究的方式也在不断发展。远古时期,人们依靠观察和思辨来认识和探索世界。17 世纪以来,随着牛顿经典力学基本运动定律的发表,科学家们逐渐把实验与理论作为科学研究的基本手段。然而,随着人类探索世界的不断深入,许多科学问题的实验研究和理论研究变得越来越复杂,甚至难以给出明确的结论。近半个世纪以来,随着电子计算机的诞生与快速发展,计算机仿真模拟变成第三种不可或缺的科学研究手段,以帮助科学家们去探索实验与理论难以解决的问题,如宇宙的起源、汽车碰撞、天气预报等。而在当前社会,各个学科领域的研究不断向纵深发展,不管是实验装置还是计算机仿真模拟的规模都变得越来越大,产生了越来越多的数据,从而催生了围绕海量数据获取、存储、共享和分析的科学研究手段。
  来自大科学装置或者计算机仿真模拟的实验数据被收集和存储起来,并通过先进高速的网络与处于不同国家或机构的合作者分享。依靠分布式计算技术及协同工作环境,科学家们不仅共享数据,还共享软件、模型、计算、专家知识甚至人力等资源,从而加快科学成果的产出。现代科学研究,特别是粒子物理、生命科学、能源环境、先进材料与纳米科学等新兴或交叉领域的发展要进行跨国家、跨地域的协作与交流,而大数据技术的发展正在对其产生深远的影响。
  下面以高能物理为例来说明科研大数据的需求及计算平台现状。新一代高能物理实验,如 LHC实验、北京正负电子对撞机 BESIII 实验、大亚湾中微子实验、宇宙线观测实验等产生了海量的数据。到 2012 年,世界高能物理的实验数据超过200 PB,并将在以后几年中超过 1 000 PB。全球近万名物理学家利用这些数据进行物理研究。
  1.2 大型强子对撞机 LHC 实验
  大型强子对撞机LHC是欧洲粒子物理研究中心(European Organization for Nuclear Research,CERN)的一个大型高能物理实验装置。来自全世界(包括中国)的研究机构和大学的近万名科学家参加 LHC 上的四个主要实验。这四个实验包括 ALICE(A Large Ion Collider Experiment,大型离子对撞实验)、ATLAS(A Toroidal LHC Appa-ratuS,超环面仪器)、CMS(Compact Muon So-lenoid ,紧凑 m 子线圈)、 LHCb ( Large HadronCollider beauty experiment,大型强子对撞机底夸克实验)(图 2)。LHC 实验将探索物理学最前沿的课题,包括寻找物质质量起源的希格斯粒子、反物质、暗物质、暗能量及超对称粒子等。
  LHC 对撞机的四个实验于 2009 年投入运行,每年产生约数十 PB 的原始数据。到 2012 年底为止,已经积累了超过 200 PB 的数据。LHC 实验将运行 20 年以上。累积的实验数据需要进行分析处理,对计算系统是一个巨大的挑战。LHC 采用了分级式计算平台,将实验数据复制到各地区的数据分析中心。这个解决方案叫做 LHC 网格,即WLCG(Worldwide LHC Computing Grid)(图3)。LHC 网格由不同规模和任务的计算中心组成。
  这些计算中心包括 CERN 的零级站点(Tier0)、地区的一级站点(Tier1)、大型机构的二级站点(Tier2)、实验室或研究团队的三级站点(Tier3)等组成。一级站点往往由参加 LHC 实验的成员国建立,二级站点则由规模较大的研究机构建立。
  LHC 网格使 LHC 的每个实验能够利用该系统的存储和计算资源,确保了实验数据和计算任务智能化地分发到世界各地的网格站点上进行数据分析处理,并使所有的科研人员能够透明地访问这些数据和计算结果。目前 WLCG 由世界上约 200个网格站点组成,总共装备了 25 万余个 CPU 的计算资源,每年完成超大规模的计算任务,为 LHC实验的数据分析处理提供了不可或缺的支撑。1.3 北京谱仪 BESIII 实验新一代北京正负电子对撞机(BEPCII)是运行在 2.0~4.6 GeV 质心能量区间的大型高能物理实验装置。BEPCII 的实验探测器叫做北京谱仪BESIII。BESIII 的物理目标包括轻强子谱测量、粲素研究、粲介子的电弱作用物理、量子色动力学和强子物理、t-物理研究以及新物理探索。
  BESIII 实验的原始数据将达到 3.6 PB。对原始数据进行处理还将产生约 1.8 PB 的物理重建数据。
  除了实验数据外,BESIII 的物理模拟过程将产生规模相当的模拟数据,因此未来几年中,BESIII的数据规模将达到 10 PB 以上。BESIII 实验的数据分析并不会随着数据采集的结束而结束,实验数据的生命期至少达 15 年以上。BESIII 合作组共有近 400 名来自世界各国的科学家参与,因此需要建立一个国际化分布式的计算环境为数据处理提供支撑。
  数据存储是 BESIII 实验的重大挑战之一。最小代价的高效数据存储解决方案是支撑 BESIII 数据处理和物理分析的基础。BESIII 数据存储包括分级存储系统和并行文件系统两部分。BESIII 分级存储系统由磁带库和磁盘池,以及自主研发的GRASS(Grid-enabled Advanced Storage System)存储管理系统等三部分组成。分级存储系统提供大规模海量数据的在线和近线存储访问服务。
  并行文件系统为根据中国科学院高能物理研究所(简称高能所)的数据访问特点进行优化的 Lustre文件系统。该系统还对稳定性及并发访问性能等进行了改进。到 2012 年底,并行文件系统的容量达 3 PB,并发访问性能达到 25 GB/s 以上。为大批量计算作业提供无阻塞的高吞吐率数据并行访问服务。
  BESIII 实验数据处理的另一个重大挑战是数据共享和分布式处理。因此 BESIII 采用网格技术建立了一个网格平台,该平台由高能所的一个网格中心站点和国内外的若干个卫星网格站点组成。
  网格平台采用 EMI(Electromagnetic Interference)为中间件,同时也可以与 GOS(Grid OperatingSystem)中间件实现互操作。计算任务可在网格站点之间全局调度。网格平台的数据传输管理采用 Dirac 系统,可高效智能地实现站点间的数据传输。网格平台将 BESIII 实验的数据处理任务分发到世界各地的合作单位,使各合作单位的计算及存储资源得以共享,大大提高了数据处理的效率,为近年来取得重要物理成果的研究提供了不可替代的支撑。
  1.4 科研大数据平台需求
  从以上高能物理领域的数据处理的例子可以看出,当前以数据为中心的科学研究,产生了越来越多的数据,迫切需要用大数据的技术和工具进行数据分析和处理。科研大数据平台用于海量数据的存储和处理,很多技术仍然不能满足应用的需求。比如,现有存储能力的增长远远赶不上数据的增长,设计最合理的存储架构成为关键。
  此外,数据的移动已成为信息系统最大的开销之一,需要高速稳定的数据传输系统。
  2 科研大数据平台关键技术
  2.1 科研大数据平台典型架构
  科研大数据平台的典型架构如图 4 所示。科研大数据平台的底层是 IT 基础设施,包括存储设备、计算设备、网络设备等,以及对这些设备进行的虚拟化形成的虚拟资源,属于基础设施层。
  海量的数据通过科研设备、传感器或者网络爬虫汇集到数据存储系统中。同时,大数据平台还具有并行数据处理能力。在海量存储和超级计算能力之上,根据应用来部署不同的数据分析和挖掘工具,如高能物理领域的 Geant4 和 Gaudi 软件、流体力学 FLUENT 软件、机器学习经典算法实现软件 Mahout。平台的最上层面向不同的应用需求提供服务,包括物理、天文、生物及社交网络分析等。标准规范、制度建设、运行维护等支撑体系保障整个大数据平台正常实施与运作,是不可或缺的重要内容。
  2.2 数据采集与清洗
  数据采集是指从数据源中获取数据。数据清洗指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理残缺数据、重复数据和错误数据等。在整个大数据的处理流程中,数据清洗是保证数据质量的重要程序。数据源不同,数据清洗的要求也不同。
  在科研大数据平台中,数据源主要包括科研设备、各类传感器和互联网。科研设备,特别是大型科研设备,产生了大量的数据。比如,大型强子对撞机 LHC 上的 ATLAS(A Toroidal LHCApparatuS,超环面仪器)探测器,以 40 MHz的事例率来采集数据,原始数据可达到惊人的1 PB/s。显然,这样大的数据量无法直接保存。因此,ATLAS 采用了强大的在线事例判选系统,也称为触发系统(trigger system),实时将物理学家不感兴趣的事例过滤掉。过滤后,ATLAS 记录的原始数据仍然达到 320 MB/s(图 5)。
  LHC 上还有其他三个类似的探测器,再加上模拟数据等,LHC 每年产生的数据达到 25 PB。科学设备的结构虽然各不相同,但是具体到某一设备都是固定的,因此其产生的数据格式往往是确定的,有统一的规范。这对于数据分析者来说,无论数据是以文件还是数据库存储的,数据都可以被认为是结构化的。因此,一般无需数据清洗过程。
  除了大型科研设备,温度、湿度、空气质量、辐射量、摄像头、相机等各类传感器也产生了大量数据,成为开展气候变化、生物迁移、交通、环境、医学等科学研究的必备数据。这类数据往往以半结构化或非结构化形式存储。特别是视频和图片是典型的非结构化数据,必须要进行有效的数据提取和表示。所以,各类传感器数据在采集后,要根据应用进行数据清洗。
  第三类数据来源主要是互联网,一般通过网络爬虫来采集。互联网数据包括简单的 web 页面,完全对外公开,通过网页访问和正则表达式匹配即可获取数据,相对简单。还有一类称为深度网络资源(deep web),通常隐藏在后台数据库,有时也称为“暗网”,传统搜索引擎无法查找和索引,如社交网络、论坛、电子商务等,而这类数据占网络全部信息数据的 90%以上。深度网络资源虽然可以通过网络爬虫抓取一定的数据,但是要进行全面的分析,还是需要数据拥有者的合作。
  需要特别说明的是,不论哪种方式获得,互联网的数据是最杂乱无章的,各种类型的不确定数据可能会大量引入系统,造成数据中含有各种各样的错误和误差,表现为数据不正确、不精确、不完全、过时陈旧或者重复冗余。据高德纳公司(Gartner)统计,在全球财富 1 000 强公司中有超过 25%的公司关键数据不正确或不精确。在美国企业中有1%~30%的公司数据存在各类错误和误差,仅就医疗数据而言,有 13.6%~81%的关键数据遗缺或陈旧。因此,数据清洗对于互联网数据非常重要,要保证数据的质量,实现数据的可表示和可靠性。
  2.3 数据存储  
  数据存储系统不仅要保存海量数据,同时还要考虑与数据处理系统的配合,提高数据分析效率。目前,常用的数据存储系统包括集群文件系统、应用层存储系统和分级存储系统等。这三者都采用分布式存储技术,本身并没有非常严格的区分,只是关注的侧重点有所不同。
  集群文件系统一般以传统文件系统的方式来访问,客户端实现内核模块,完全兼容 POSIX 语义,因此上层的数据处理软件无需任何修改即可使用海量的存储空间,能够很好地兼容原有应用。
  常见的集群文件系统包括 Lustre、Gluster、GPFS、ISILON 等,其中全世界最快的超级计算机中 70%以上的都在使用 Lustre 系统。
  应用层存储系统一般不实现文件系统内核模块,不完全兼容 POSIX 语义,针对特定的应用场景进行优化,因此往往表现出更好的可扩展性和性能,但是上层应用程序必须要调用特定的API 才能访问。现有的分布式存储系统有谷歌文件系统(google file system,GFS)和 HDFS(hadoop distributed file system)等,其中 HDFS是一套开源软件,在互联网的大数据存储中应用尤为广泛。
  科研大数据的存储量往往达到 PB 级甚至更高,因此存储的成本和性价比也是重要的考虑因素。分级存储系统是指根据文件的访问频率、热度等因素,将不同的文件分配到不同的存储设备上存放。基于磁盘–磁带的分级存储系统比较成熟,比如 CASTOR、dCache等系统广泛应用于高能物理领域。当前,基于 SSD 硬盘、SATA硬盘做分级存储是研究热点,如开源项目 flash-cache和扩展项目 flashcachegroup等。
  2.4 数据处理  
  由于海量数据的数据量及分布性等特点,必须要采用并行处理技术才能快速处理。根据数据的特点,数据处理系统主要分成批处理计算系统和实时计算系统。批处理计算系统用于离线数据分析,包括高吞吐量计算(high throughputcomputing,HTC)、MP(IMessage Passing Interface)并行计算、MapReduce等。实时计算系统主要用于在线系统,使得系统和应用程序能够从庞大且多样的连续数据流中提取有效的知识和信息,常用的系统包括开源(open source)的 Storm、S4及商业软件 StreamBase等。
  高吞吐量计算和MPI并行计算主要用于高能物理、天文等传统科学技术领域,常用的资源管理器包括 IBM 的 Platform LSF、开源的 Condor、Torque/PBS等。
  MapReduce 是 2004 年由谷歌公司提出的一个用来进行并行处理和生成大数据集的模型。Hadoop是 MapReduce 的开源实现,是企业界、学术界共同关注的大数据处理技术。针对并行编程模型易用性,出现了多种大数据处理高级查询语言,如 Hive、Pig、Sawzall等。这些高层查询语言通过解析器将查询语句解析为一系列 MapReduce 作业,在分布式文件系统上执行。与基本的 MapReduce 系统相比,高层查询语言更适于用户进行大规模数据的并行处理。由于 Hadoop 的生态系统不断完善,目前已经成为大数据分析的首选平台。
  2.5 数据传输
  
  面向大科学工程领域的科研大数据与其他领域大数据之间的另一个明显区别是需要进行跨地域的海量数据搬迁。如果用千兆互联网接入的高速专线,需要近 80 年才能传输完成。因此,需要更高的网络带宽和更高效的数据传输管理工具,包括 FTS(File Transfer Service)、Phedex等。同时,软件定义网络(Software DefinedNetwork,SDN)可以有效提高带宽利用率,目前正在全球高能物理网络(LHC Open Network En-vironment,LHCONE)中推广应用。
  2.6 数据共享和安全  
  在大数据时代,数据只有开放和融合才能发挥数据的最大价值。但是,数据开放会带来安全问题,主要体现在三个方面:文件安全性、动态数据安全性、数据隐私。文件安全性需要保证文件完整性,并保证文件不被非授权用户访问、不被非法篡改等。目前文件安全性主要由操作系统来保证,包括访问控制列表、访问权限、加密保存和传输等方法。动态数据安全性指保证数据处理平台中动态数据(内存数据、进程等)的安全。
  目前虚拟机广泛采用,如何进行细粒度的安全监测与数据保护,对于大数据平台来说是一个重要的需求,目前这方面的研究比较活跃。
  数据隐私主要是指保护数据中用户的敏感信息,在数据挖掘中更加强调在不暴露用户敏感信息的前提下进行数据分析。数据匿名性、关联性一直作为数据隐私分析的重要概念,用于对数据隐私度进行度量,如 k-匿名性(k-anonymity)、l-多样性(l-Diversity)、t-Closeness 和 FF-Anonymity等概念和方法针对不同需求相继出现。2006 年,Dwork 针 对 概 率 攻 击 原 理 提 出 了 差 分 隐 私(Differential Privacy),可以较准确地度量数据发布前后信息量的变化,得到广泛认可,后来有较多学者对其改进。目前,关于数据隐私的问题和研究仍在不断发展。
  3 科研大数据开放平台实践
  借鉴高能物理海量数据处理的技术与经验,依托大规模的数据密集型计算平台,高能所正在建设一个面向领域的科研大数据开放平台和应用中心,其基本框架如图 6 所示。
  如图 6 所示,整个系统由分布式数据获取与整合、数据管理、数据处理环境、应用等几个部分组成。数据来源包括大型科学仪器、物联网传感器、模拟计算以及互联网,同时还可以通过开放接口与第三方数据提供方进行数据交换。系统在数据采集、数据管理、数据挖掘、应用等多个层次进行开放,提供 IaaS(基础设施即服务)、DaaS(数据即服务)、PaaS(平台即服务)、SaaS(软件即服务)等多种服务。科研大数据开放平台的特点首先表现在数据开放性上。系统集分布式数据获取和整合、存储、共享、传输、处理与展现于一体,通过将平台和应用的分工细化,在各个不同的层次进行开放,提供 DaaS、PaaS、SaaS 等不同级别的大数据基础支撑服务。大数据应用的研究者、开发者只需要利用平台开放的数据获取能力,获取需要的数据,或整合平台已有数据,并调用已有的存储、计算以及数据挖掘工具进行工作,即可以最高的效率、最低的成本达到研究及应用的目标。高能物理领域一直是按照这个模式在工作,目前尝试将这种模式从高能物理扩大到其他大数据领域。
  科研大数据开放平台的特点还表现在数据融合能力上。科研大数据开放平台上的数据是流动的且不断更新的。一方面,高能所基于自身科研需求,可以聚合海量的高能物理、天体物理、化学、生物工程、生命科学、材料科学等多个科学应用的海量数据。另一方面,基于志愿计算的分布式数据采集技术可以实现对互联网海量数据的有效采集,具有时效性、广泛性与精准性的显着特征。目前,面向互联网数据的采集系统已经向公众开放。最后,通过数据合作、交换,可以整合更多领域的科研数据、物联网数据、互联网数据等海量数据。这些来源不同的数据依托科研大数据开放平台,实现高效、便捷、可控的分享、交换、融合,最终促进跨学科交叉创新,实现数据价值的最大化。
  科研大数据开放平台的特点还表现在数据跨地域的传输与共享方面。科研大数据与其他大数据的一个明显区别就是需要进行跨地域的海量数据搬迁。为了解决这一难题,高能所正在建设高能物理数据传输虚拟专用网(Chinese High EnergyPhysics Data Transfer Network,CHEPDTN),采用新型软件定义网络技术和网络架构(SDN),充分利用已有的网络基础设施(设备)和资源(IPv4和 IPv6 带宽),满足跨地域的高能物理实验合作单位之间的高速、稳定、安全的高能物理数据传输需求。
  4 小结
  大数据作为未来的发展方向,其重要性已经获得了科研界、企业界和政府的认可。而围绕数据和数据分析为核心的数据密集型科研从第三范式(计算机模拟)中分离出来单独作为一种新的科研范式(第四范式),受到越来越多的重视。
  但是在大数据发展的过程中,还面临技术和管理等多方面的挑战,包括数据开放性不够,数据融合度不高,支撑能力不足等问题。如果让每一个大数据的“掘金者”都要完成“找矿”、“购买工具”、“冶炼”、“贩卖”的全部工作,无疑存在大量重复劳动和浪费,同时效率低下,创新门槛也极高,大数据的真正价值不能完全发挥,不利于创新。实际上,早在“大数据”理念提出之前,高能物理研究领域已经很好地解决了海量数据开放融合、高效处理的问题。高能物理研究是一个完全开放的计算模式,海量基础数据、计算能力、存储能力、传输能力对于全球合作组成员都是开放共享的。高能物理研究是科研大数据的主要来源,也是科研大数据的典型案例。因此,高能所正在尝试借鉴高能物理领域的技术和经验来设计和建设一个科研大数据开放平台,面向科学研究和大数据产业发展需求,提供统一的数据采集、数据存储、并行计算和数据分析等服务,实现数据开放和融合,为大数据应用的开发创建安全、可靠、高效的基础平台,从而降低应用门槛,推动大数据产业健康快速发展。

相关期刊

国防交通工程与技术

复合影响因子: 综合影响因子: 期刊分类:自然科学

出版地:河北

发行周期: 双月刊

期刊级别:

推荐期刊