1、地震大数据服务支撑平台实现功能
地震大数据的分析与挖掘、地震行业的辅助决策、信息与计算资源的整合与开放、公共信息服务。
2、地震大数据服务支撑平台设计难点
(1)基于大数据技术的地震行业算法移植与重构
地震分析人员在长时间的业务实践中实现了许多成熟的分析算法,这些算法基于Matlab、C、Java、PHP等多种技术,数据来源包括Excel表、平面文件、数据库等各种类型。但这些算法多是单机运行,面对目前海量的数据显得力不从心。本项目采用当前先进的MapReduce、Spark等大数据平台对现有的算法进行移植与重构,将计算服务搬上云端,能够极大提高工作效率。
(2)基于云计算技术的地震局计算资源共享
地震局信息中心目前拥有大量高性能服务器,构成强大的计算资源,也积累了海量数据,但以目前的人员技术水平难以充分使用。本项目基于云计算与虚拟化技术建立统一的服务访问接口,用户上传按照接口标准编写的算法,即可使用系统的资源与数据执行分析,可保证信息与计算资源的充分使用。
(3)基于异构存储的地震数据开放服务
地震数据多是以特定的二进制文件形式保存,为实现公共开放数据,本项目建立并行数据解析算法结合关系数据库、NoSQL数据库、HDFS文件系统联合数据存储的方式,将属性数据与数值数据分散存储。既能够保障核心数据的安全性,又可提高公共开放数据的访问效率。
3、地震大数据服务支撑平台总体技术方案
如下图所示,地震大数据服务支撑平台主要由六部分组成:基础设施层、平台层、业务层、应用层、数据中心、管理中心。
4、地震大数据服务支撑平台实现具体技术指标
完成不少于4类数据来源的数据集成工作,包括内部数据库、Excel文件、平面文件、二进制文件。
完成不少于4类数据的存储工作,包括地理信息数据、地震台网属性数据、地震测量数值数据、公共开放数据。保证各类数据之间的一致性、完整性约束。
基于MapReduce或Spark重构不少于50个原有算法,重构后的并行算法与原算法计算结果一致,计算效率提高10倍以上。
完成不少于50台服务器的计算资源集成工作,提供近3年的地震相关数据信息作为公共开放数据。
5、主要研究技术或开发工具
大数据、并行计算、hadoop、spark、java、python、matlab