解决不同存储场景,不同数据形态的存储问题
提供高效、智能、可靠的数据管理方案
联系方式
售后服务热线
400-838-3331转3
关注官方公众号
服务邮箱
support@szsandstone.com
关注杉岩小助手
不断攀升的人力成本、运营成本、差旅成本……随着市场竞争进入微利时代,企业成本精细化管控成为焦点,如何控制IT软硬件成本同样困扰着无数CIO、CTO们。以IT重要基础设施存储为例,非结构化数据的爆发式增长,使得数据存储成本越来越高,让很多企业不得不舍弃大量有价值的数据,造成各种数据资产信息的缺失。在业务复杂性、数据安全性、扩容性价比的多重压力下,企业逐渐采用更加高效的分布式存储方案。
机器视觉、网上银行、自动驾驶……新的业务场景、新的数据形态、新的响应需求,企业的存储基础设施正面临着前所未有的挑战。分布式存储,凭借大规模集群下的整体性能和容量优势、系统扩展能力强、运维管理效率高、可用性和可靠性高等特点,受到越来越多用户的青睐,并进入企业的存储基础设施建设选型范围。然而,对于正在推进分布式存储落地的企业而言,如何进行系统选型?需要关注哪些方面?有什么好的解决方案?这份选型指南,请收好!
自动驾驶、智能制造、AI……新技术带来数据量的爆炸式增长,这也导致企业的存储成本快速上升。
以自动驾驶为例,L3级自动驾驶项目需要存储50到120PB的传感器数据,这些数据要求在短时间内分析完成,完整测试产生的数百PB数据需要存储30年以上。这对训练效率和海量存储的成本优化提出了更高的要求。
当前,随着AI(人工智能)技术的日趋成熟和疫情的影响,整个社会加速进入以人工智能为代表的数字化新常态。AI应用已逐渐渗入到我们生产、生活的方方面面,并产生积极影响。比如,AI在人脸识别、机器人客服、智能质检、辅助医疗、自动驾驶、风评风控等领域快速响应,提高了效率。在今年发布的国家“十四五“规划纲要中,人工智能更是被重点提及,已上升为国家战略高度,成为新一轮科技革命和产业变革的重要驱动力量。
主要看企业的生产环境和对应的压力。磁盘阵列比较适合对接数据库,高性能、低时延。分布式存储更适合大容量的数据存储。分布式存储有不同的服务,有块、文件、对象。块可以对接虚拟化和容器,如果虚机较多、资源占用加大,可以使用分布式块存储来对接;
目前我社正在考虑建设新一代双活数据中心,在规划核心系统使用的存储时,是使用集中存储还是使用分布式存储是我们考虑的难点。请问如果考虑使用分布式存储,在分布式存储的选型上应重点考虑哪些方面,在关键性能指标、存储的稳定性、健壮性、并发性、数据复制、双活等方面主要侧重考虑哪些问题。
最近有很多朋友拿着一篇关于“ceph运维那些坑”的文章来找我,起初我并没有在意,毕竟对于一个“新物种”来说,存在质疑是再正常不过的。不过,陆续有更多的合作伙伴甚至圈内同行来问我如何看待这篇文章时,我觉得做为一名Ceph开发和运维的技术者,理应站出来为Ceph说点什么。
首先,原作者分析Ceph运维中遇到的问题是真实存在的,甚至在实际的运维过程中还出现过其他更复杂的问题。因为最初的Ceph只是社区提供的一套开源版,因而想要实现产品化需要趟过很多次“坑”,就像最早的安卓系统一样。我想任何产品在一开始都难以做到十全十美,因为技术本身就是在发现问题与解决问题的道路上不断前进发展的。不过,在这里我想澄清的事实是:连初涉Ceph的运维人员都能发现的问题,研究Ceph多年的资深技术人员们肯定也早已发现。
存储根据其类型,可分为块存储,对象存储和文件存储。在主流的分布式存储技术中,HDFS/GPFS/GFS属于文件存储,Swift属于对象存储,而Ceph可支持块存储、对象存储和文件存储,故称为统一存储。Ceph最早起源于Sage就读博士期间的工作、成果于2004年发表,并随后贡献给开源社区。经过多年的发展之后,已得到众多云计算和存储厂商的支持,成为应用最广泛的开源分布式存储平台。
Ceph根据场景可分为对象存储、块设备存储和文件存储。Ceph相比其它分布式存储技术,其优势点在于:它不单是存储,同时还充分利用了存储节点上的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡。同时,由于采用了CRUSH、HASH等算法,使得它不存在传统的单点故障,且随着规模的扩大,性能并不会受到影响。
2019 年中国迈入新数据时代元年,IDC最新发布的《2025年中国将拥有全球最大的数据圈》显示,中国各类型数据呈几何级数增长,预计在2025年中国数据圈将增至48.6ZB。数据带来前所未有的商业红利的同时也带来了前所未有的风险。数据泄露水平指数显示,2018年每天有超过2500万条数据遭到入侵或泄露,涵盖医疗、信用卡、财务数据、个人身份信息等。
目前我们正处于一个新的时代,这个时代被赋予了许多标签:互联网+时代、云计算时代、大数据时代、人工智能时代。
当前时代的IT系统架构伴随着软件定义的发展,正发生着巨大的变化,作为IT架构核心数据保险箱的存储单元正在面临着前所未有的挑战。前端业务应用规模从数据量、性能、安全性以及应用类型上都有了成倍的增长,传统的存储设备和解决方案很难满足这种大规模应用场景的需求。不同的应用场景产生的数据类型及访问数据的IO模型各不相同,采用软件定义的分布式存储解决方案可以更好的应对目前的挑战。
区块链的本质就是一个数据库,而且是采用的分布式存储的方式。作为一名区块链从业者,今天就来讲讲区块链的分布式存储和生态大数据结合后,碰撞产生的火花。
当前的存储大多为中心化存储,存储在传统的中心化服务器。如果服务器出现宕机或者故障,或者服务器停止运营,则很多数据就会丢失。比如我们在微信朋友圈发的图片,在抖音上传的视频等等,都是中心化存储。很多朋友会把东西存储在网上,但是某天打开后,网页呈现404,则表示存储的东西已经不见了。
随着计算机系统规模变得越来越大,将所有业务单元集中部署在一个或者若干个大型机 上的体系结构物,已经越来越不能满足当今计算机系统,尤其是大型互联网系统的快速发展,各种灵活多变的系统架构模型层出不穷。同时,随着微型计算机的出 现,越来越多廉价的PC机成为了各大IT企业架构的首选,分布式的处理方式越来越受到业界的青睐----计算机系统正在经历一场前所未有的从集中式到分布 式架构的变革。
容器云在使用分布式存储时,HDFS、CEPH、GFS、GPFS、Swift等分布式存储哪种更好?公司在进行容器云技术选型,想了解相应的分布式存储如何匹配,HDFS、CEPH、GFS、GPFS、Swift等分布式存储,采用哪种更好,主要场景是容器存储应用日志、配置文件、非结构化数据文件等。
性能是一个相对概念,是对某种场景下对系统的一个数值评价,是满足程度的一个衡量;
性能是设计出来的,不是优化出来的,因此,必须在架构上对性能需要达到的目标进行合理的设计;也就是说,使用场景与成本定义出来后,性能架构就随之定义出来,包括软硬件;
粗略的说,在硬件上,需要大容量高吞吐率就上大容量盘,网卡配大点;需要低时延就上SSD\NVDIMM,软件技术上引入DPDK\SPDK\DMA\RDMA等等;
架构与硬件确定好后,系统的性能上下限就被定义出来,要想通过性能优化翻盘,那是不可能的;就好比你买了一个摩托车,想要改造成飞机的性能,那咋可能;
面对日趋严峻的隐私数据泄露形势,作为互联网用户的我们决不能再抱着看客的心态。那么,近年来大热的得到技术界人士认可的分布式存储,到底能不能拯救这些被集中的数据呢?下面,我们就来了解一下中心化存储与分布式存储以及二者之间的区别。
常用的分布式文件存储
GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存 储服务。
Ceph是什么?它是一个软件定义的开源分布式对象存储解决方案,面向PB级的海量数据存储平台。最初由Inktank于2012年开发,该公司在2014年被红帽收购。随着近几年大数据的发展,因为在性能、可靠性和可扩展性方面具有优秀表现,Ceph在分布式存储领域获得了大量关注。
对一个大规模集群的存储系统而言,服务器宕机、交换机失效是常态,架构师必须为这些故障发生时,保证系统依然可用而进行系统设计。在系统架构层面,保证高可用的主要手段是冗余:服务器热备,数据多份存储。使整个集群在部分机器故障的情况下可以进行灵活的失效转移,保证系统整体依然可用,数据持久可靠。系统架构如下图所示:
什么是分布式存储
分布式存储是一种数据存储技术,它通过网络使用企业中每台机器上的磁盘空间,这些分散的存储资源构成了虚拟存储设备,数据分布存储在企业的各个角落。
分布式存储系统,可在多个独立设备上分发数据。传统的网络存储系统使用集中存储服务器来存储所有数据。存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,无法满足大规模存储应用的需求。分布式网络存储系统采用可扩展的系统结构,使用多个存储服务器共享存储负载,利用位置服务器定位存储信息,不仅提高了系统的可靠性,可用性和访问效率,而且易于扩展。
分布式存储是相对于集中式存储来说的,在介绍分布式存储之前,我们先看看什么是集中式存储。不久之前,企业级的存储设备都是集中式存储。所谓集中式存储,从概念上可以看出来是具有集中性的,也就是整个存储是集中在一个系统中的。但集中式存储并不是一个单独的设备,是集中在一套系统当中的多个设备。
Vdbench是Oracle编写的一款应用广泛的存储性能测试工具,既支持块设备的性能测试,也支持文件系统性能测试。Vdbench使用java编写,兼容linux和windows的操作系统,使用方便。使用vdbench时需要先安装java的jdk包,Vdbench作为性能测试工具,广泛应用于各种性能测试场景中,当然,它也是免费的(点击这里,了解为什么要说也)。同时vdbench一个重要特性就是数据一致性的测试。Vdbench在做随机写的一致性测试很方便,能实时检查出哪一个扇区出现了数据不一致。
IOMeter是intel发布的一款测试I/O操作性能的开源软件。它除了可以在本机运行测试本机的IO(磁盘)性能之外,还提供了模拟网络应用的能力。可以运行在Windows或者linux操作系统上,主要是用于在windows进行测试,在linux上存在并发I/O不充分的问题(实测)。IOMETER因其界面友好,且能输出excel的报告受到很多客户的喜欢。Align则是指每次测试时跳过的扇区大小。
虚拟机迁移、克隆、备份都是虚拟化平台需要频繁进行的操作,这些操作都涉及了虚拟机文件的数据传输。这一传输的大致过程如下图所示: 即首先通过源服务器从存储读取,然后跨网络传输到目标服务器,最后通过目标服务器写回存储。由于受制于这样的数据操作机制,当超过一定数量的虚拟机同时进行诸如迁移、克隆、备份、zeroing等操作的时候,往往会导致出现网络带宽资源消耗严重、CPU和内存资源被大量占用的问题。
扫码关注