《金融电子化》 | 金融海量非结构化数据存储的最佳解决方案

/ 2018-07-13

金融行业随着业务的高速发展及监管法规的严格要求,扫描件、照片、音视频和文档等非结构化数据每年成倍数增长,传统NAS在容量扩展性、海量小文件性能、海量文件检索和管理便捷性上都存在诸多问题。如何更加高效地存储和管理海量非结构化数据,已成为金融行业信息化建设亟待解决的难题。

针对上述问题,杉岩数据结合多年在分布式存储领域的技术积累和行业应用实践,推出了金融大数据“存储—管理—挖掘”三位一体的行业解决方案,即杉岩海量对象存储(SandStone MOS)系统,旨在帮助金融行业用户更好地存储和管理非结构化数据,挖掘数据背后巨大的商业价值。


对象存储是面向未来的海量非结构化数据

最佳存储方案



面对万亿级文件的存储,亚马逊、阿里云等公有云厂商普遍采用对象存储技术方案, 从2006年亚马逊发布S3对象存储至今已经在互联网行业应用超过十年,是经过实践所证明的海量非结构化数据存储的最佳方案

在对象存储技术趋势的持续影响下,企业常见的容灾备份工具、网盘、Hadoop、ElasticSearch等通用型软件均已支持S3对象存储接口。随着S3存储优势的展现和生态的逐步完善,未来对象存储将在超过80%的企业应用场景中替代文件存储。



杉岩海量对象存储

助力金融行业轻松应对海量非结构化数据



杉岩海量对象存储(SandStone MOS),采用去中心化、分布式架构,以软件形式部署在通用x86服务器上,支持百亿级文件及EB级容量存储,具备高效的数据检索、智能化标签和分析能力,轻松应对大数据和云时代的存储挑战。

EB级容量轻松扩展,百亿级文件高效访问

对于金融行业,尤其是银行影像平台,每年会增加数百万甚至数千万的文件数量,存储空间也会相应增长数百TB。同时,根据金融相关法规的要求,影像数据需要长期保存,因此积累下来的文件数量和存储空间都可以用“海量”来描述。

传统NAS存储在容量扩展和可管理的文件数量上,都存在较多问题。由于其扩展性受限,在容量满后则需要购置新的NAS存储设备,对于IT运维人员来说这将带来多台NAS设备的数据管理和维护难题,且数据存放在不同NAS设备上也会造成信息孤岛。当文件数量达到千万级别后,NAS存储的文件访问性能也将急剧下降。

杉岩海量对象存储(SandStone MOS)构建在通用x86服务器上,采用去中心化分布式架构,单集群可扩展至EB级规模。同时,杉岩对象存储产品利用先进的分布式哈希算法技术,通过哈希计算代替查表的方式实现文件索引,使得单一名字空间可管理的文件数量达百亿级别,且可保持稳定的文件访问性能。 

文件标签+AI,实现高效、智能化检索

传统文件存储的重点在于解决存储的问题,文件的元数据检索依赖于外部的数据库。一旦文件脱离原有数据库系统,文件的检索和查找就非常困难,一是文件缺少必要的元数据信息,检索形式单一; 二是文件数量较多的情况下,传统存储搜索的时间在分钟甚至数十分钟级别,无法做到实时检索。

杉岩海量对象存储(SandStone MOS)支持文件标签化且标签具备检索功能,单个文件支持数百个标签。用户可以将文件的相关元数据保存到存储系统中,即使脱离业务系统的数据库归档后,也可利用标签进行多维度检索。由于杉岩对象存储产品的索引系统也是分布式架构,所以在文件数量较多时也能很好地满足实时检索的性能要求。

同时,杉岩海量对象存储(SandStone MOS)内置AI处理框架,可以实现文件的关键信息提取、证件照片的OCR识别、语音识别,并根据识别的内容给文件自动打上标签。相比原来“数据库+NAS”的架构,用户可以利用标签检索功能更加高效地实现文件的管理和检索。

一套存储满足“存储—管理—挖掘”需求

传统业务架构,对于非结构化数据的存储、归档、分析往往采用三套不同的存储设备,业务数据先存储到NAS,受限于NAS的容量和访问性能,当超过一定容量或数据变冷后,再将温/冷数据归档到冷存储或其他廉价存储上。如果需要进行数据分析,会再次将数据导入到HDFS进行分析,海量数据的导入耗时较长且需要维护HDFS分布式存储。

杉岩海量对象存储(SandStone MOS)具备海量存储能力,既可作为一级业务应用的文件存储系统,也可直接作为文件归档存储系统,实现存储和归档的统一。借助杉岩特有的连接器,支持Hadoop、Spark等大数据分析平台访问,在读写性能上甚至优于HDFS分布式存储。

因此,金融行业用户只需要一套分布式存储,即可实现海量非结构化数据的统一存储、管理和分析,降低维护难度,避免非必要的数据迁移工作。

老旧设备滚动更新,迁移过程简单无风险

传统NAS存储超过硬件维保期后,用户需要进行硬件的更新换代和数据迁移。对于非结构化数据来说,往往数据量大或小文件数量多,数据迁移时间可能超过数月且风险高,对IT运维工作挑战较大。

杉岩海量对象存储(SandStone MOS)采用”x86通用硬件+软件”的分布式解耦架构,单个硬件停止维护不会影响到整个系统的正常运行。杉岩数据首创的分布式存储数据盘漫游功能,可以帮助企业用户渐进式的进行硬件更换,不影响业务的正常运行。



金融行业应用案例 

华南某证券公司



金融机构对于非结构化数据的管理并不是毫无准备。2015年,在全国拥有200多家营业部的华南某证券公司就率先规划建设了公司级档案中心,将各业务系统产生的数据自动归集到档案中心,集中存储、备份、管理,并提供Web化的管理系统,支持远程在线访问和调阅。

至2016年底,业务数据量的急速增长与用户对系统的高响应需求之间矛盾日益突出,为切实解决问题,同时构建前瞻性的解决方案,该证券公司重新规划档案中心管理系统,新方案至少要解决几大痛点:首先,小文件海量增长,当前文件数过亿,访问时延达秒级,存储不具备面向未来的高扩展性。其次,受制于NAS控制器带宽和档案系统中间的处理能力,当涉及大文件的并发读写时,整体吞吐能力差。同时,NAS存储只支持主备模式容灾,多数据中心下,业务系统需通过跨数据中心网络访问存储,严重影响使用体验。

针对该证券公司的问题,杉岩数据提供的海量对象存储(SandStone MOS)解决方案展示了其独特优势,如图所示:

WechatIMG523.jpeg

华南某证券公司双活数据中心示意图


第一,用对象存储代替NAS,优化了小文件性能,从原来的接近秒级优化到100毫秒,节省约30%的存储空间,完全满足数据存储和管理要求。

第二,业务系统经过档案系统授权后获取对象的URL地址,利用URL直接与杉岩对象存储交互,利用杉岩对象存储分布式处理能力和高吞吐能力,保证营业网点的视频播放体验。之前需要数分钟才能开始播放的视频,通过流媒体形式,提升到秒级开始播放。

第三,构建双活数据中心,实现业务系统就近访问本中心存储。对于相同的目录多个数据中心支持同时读写访问,保证了不同数据中心访问数据的性能。跨数据中心间采用异步复制模式,并利用杉岩海量对象存储独有的QoS控制能力,保证证券核心交易时间对跨数据中心带宽影响最小。