在金融行业,大数据分析被应用于个人及企业客户画像、精准营销、欺诈识别、风险评估、风险管理与控制、交易分析、运营优化、智能投资等领域。
金融业务的特点使得业务应用对计算和存储的能力要求较高。为了高效、安全、完整地完成存储和计算的建设任务,应该用“存算一体”还是“存算分离”架构?问:在金融行业,为什么“大数据存算分离“才是未来?
随着大数据系统建设的深入,企业的数据基础设施易出现计算资源浪费、存储性能低、管理成本过高等挑战。相比存算一体架构,存算分离架构具有性能与成本最优、兼具灵活性等特点,因此受到企业IT部门的青睐。
Hadoop是金融行业常用的大数据系统解决方案,以解决海量数据存储及分析计算的问题。HDFS是Hadoop的核心组件,提供了高可靠、高吞吐的分布式文件系统。其存储与计算高度融合形成存算一体架构。
随着金融业务规模逐步扩大,每天产生如客户信息、交易记录、市场行情、风险指标、系统日志等海量的数据,数据规模成指数级爆发增长。在存算一体架构中计算与存储是强绑定关系,不可避免地会同时争夺服务器有限的CPU等公共资源。金融行业分析业务相对集中,在业务繁忙时容易出现瓶颈,性能低下。存算一体架构逐渐难以适应和支撑金融业大数据分析发展的要求,主要体现在以下几点:1.灵活性差。金融业务繁多,大数据分析任务对资源的需求难以被提前精确规划。而存算一体架构通常需要在计算和存储资源之间进行平衡,以满足不同任务的需求。这种平衡可能会大大限制系统的灵活性,使得在面对不同类型和规模的任务时,难以进行有效的资源管理和调度。2.资源利用率低。在存算一体架构中,计算和存储资源是共享的,但金融业不同分析任务对计算和存储的需求不同。执行存储密集型任务或计算密集型任务时,服务器资源可能没有被充分调度使用或出现任务间相互影响制约,从而导致资源利用率低下。3.无法按需扩展。金融业的历史数据需要长期保存并随时被调用,可能需要同时对每周、每月、每年的数据执行批量分析任务。随着数据量的增长,数据存储的容量要求不断增长。而计算资源的需求往往跟不上存储容量的要求。由于存算一体架构的计算和存储紧密耦合,存储资源的扩展伴随着计算资源同时扩展,从而导致成本和复杂性的增加。随着近年来大数据应用的广泛普及,传统的存算一体模式弊端逐步凸显。从业务需求和大数据技术发展趋势看,大数据计算、存储分离已势在必行。
从当前存算分离业务实践来看,主要包括以下几个方面的核心价值:
1.灵活扩展。存算分离架构允许独立地扩展存储和计算资源,可以根据实际需求动态地调整资源配置,从而提高系统的灵活性和可扩展性。存算分离架构可以支持横向扩展和纵向扩展,根据业务需求灵活调整计算和存储资源的规模;可以利用软件定义存储产品提供的HDFS兼容接口能力,无缝对接原有Hadoop系统,实现平滑升级,并带来丰富的企业级特性,从而更好地适应金融业市场变化和业务增长。
2.优化性能。由于存储和计算资源可以独立地进行优化和升级,存算分离架构可以更好地适应不同的计算负载和存储需求。对访问频繁的数据,可以采用专业的软件定义存储通过本地化缓存等高级特性,降低数据访问的延迟和网络带宽的需求,从而提高系统的性能。3.提高资源利用率。存算分离架构可以更好地利用存储和计算资源,减少资源的浪费和重复利用;利用云化共享资源池,摆脱数据孤岛,资源在不同的业务间共享,提高资源利用率。4.提升数据可靠性。存算分离后,可以利用专业的企业级存储引入丰富的数据保护特性,如多故障域、亚健康检测、快速重构、故障自愈机制等特性提升可靠性。5.降低存储成本。存算分离架构可以将计算和存储资源独立扩展,从而降低硬件和运维成本。对金融业历史数据,由于其访问频繁度降低,可以利用专业软件定义存储产品的EC特性等,满足业务性能要求的同时提高得盘率,从而降低存储成本。