当前对地观测卫星的主要特点主要表现在高空间分辨率、高光谱分辨率、回访周期短、影像条带宽、立体成像能力和多种成像模式等方面,越来越多的不同平台搭载的观测传感器使得人们可以获得近乎连续高维度数据,这种信息采集的爆炸式增长为信息提取带来了巨大挑战。云计算技术和大数据分析技术的提出和发展为我们提供了高效率的信息处理和提取解决方案。面向遥感大数据的云计算技术突破开源Hadoop平台支持遥感数据处理的局限,建立基于Hadoop的多源载荷遥感数据处理框架,建立支持高效数据存储访问的HDFS遥感数据存储模型和基于Map-Reduce编程模型的通用遥感算法并行化计算模型,设计并实现了高性能存储算法和并行化图像处理算法,为实现基于云平台服务架构的大数据多源载荷遥感数据处理与综合应用奠定基础。
面向遥感大数据的云计算平台系统架构图
1、基于HDFS的多源载荷数据存储与组织技术
将云计算集群中大量各种不同类型的存储设备作为存储资源池,提供统一可动态扩展的存储服务。采用HDFS大文件分块、分布式存储、多份拷贝的技术架构,可根据需要自动调度数据和所需的存储资源,通过冗余存储保证数据的可靠性和访问处理的高效性。多源载荷遥感数据巨大,随着卫星和服务平台规模的迅速增加,遥感云存储可以满足数据量不断增长的按需扩展要求同时可以降低设备成本,提高数据的可靠性和访问效率,并可支持基于云存储的高效并行处理。
1)针对HDFS分布式存储的特点以及遥感影像数据格式的特点,从并行计算和存储需求一体化的角度出发,研究遥感数据的划分策略、存储和组织方法,建立HDFS遥感数据存储模型。以国产陆地卫星标准数据产品为范例,基于该模型,设计直接支持影像文件读写的数据类型,实现高性能函数库,提供影像数据文件打包、存储和访问的接口,支持Map-Reduce作业高效访问。
2)分别从多源载荷数据和文件的特点,以及HDFS分布式存储的特点出发,针对国产陆地卫星标准数据产品,分析HDFS的适用范围与效率影响因素。统一考虑计算需求与存储需求,形成了支持以数据为中心计算模式的存储组织方式。通过分析数据分块粒度、数据索引、数据局部性等特性的影响,提出存储优化策略。最后,提出了HDFS下数据划分、存储组织方法,建立存储模型。
2、基于Map-Reduce的多源遥感数据处理及应用算法并行化技术
为了突破Hadoop支持遥感数据处理的局限问题,建立了基于Map-Reduce编程模型的多源遥感处理分析算法并行计算模型,实现大数据遥感影像并行处理,为建立多源载荷遥感数据处理云计算框架奠定基础。
1)基于Map-Reduce的多源载荷数据处理算法并行化模型研究
针对遥感影像处理算法的特点以及其计算并行化特征,从抽象简化Map-Reduce编程模型的角度出发,研究并行运算条件、数据分布方式、任务划分粒度、结果归并与编程模式之间的关系,在并行编程模型优化、任务并行划分、数据与算法自动解耦等方面取得突破,建立基于Map-Reduce编程模型的算法自动并行化计算模型。基于该模型,支持对Map-Reduce编程模型的更高层次抽象和简化。
2)基于Map-Reduce的多源载荷数据处理并行化算法封装研究
研究实现了具有代表性的遥感算法为范例的并行处理过程。研究了基于Map-Reduce的并行处理算法封装方法,实现能在Hadoop上运行的并行算法。研究存储与计算的粗粒度耦合与优化技术,从任务分解、并行处理、结果拼接等环节出发,寻求更加符合遥感图像处理本质需求的优化计算模型。