杉岩CTO邱尚高:AI+数据湖时代,对象存储不止步于存储

Sort:Company dynamics Release time:2020年11月23日
Share:

11月18日,由百易传媒(DOIT)主办的2020中国数据与存储峰会在北京盛大开幕。众专家与行业代表同台探讨新数据时代存储技术发展趋势,分享数字化转型成果,共话智慧未来。杉岩数据CTO邱尚高携“AI+数据湖时代,对象存储新未来”的主题演讲出席峰会。


图1.杉岩数据参展中国数据与存储峰会


邱尚高在演讲中提到,以5G、大数据、人工智能为代表的新兴技术深入行业应用,智能在“端、边、云”延伸,数据的种类和数量越来越多,企业对数据价值的诉求也更趋强烈,传统基础设施面临着前所未有的挑战。基于数据湖构建集数据汇聚、加工、分析、利用于一体的基础架构成为企业市场的重要趋势。

纵观国内,不论是公有云厂商还是私有云厂商,纷纷基于对象存储推出差异化的数据湖解决方案。对象存储凭何优势,能够成为数据湖存储底座的不二之选?在AI+数据湖时代,对象存储又迎来哪些新的场景?针对上述问题,邱尚高作了系统地阐述与分享。


图2.杉岩数据CTO邱尚高出席峰会并作主题演讲


为什么是对象存储?


从2006年亚马逊推出公有云存储服务(Amazon S3),到2012年阿里云存储服务(OSS)的面世,再到2016年杉岩数据率先推出企业私有云对象存储产品(MOS),对象存储因互联网而生,面对海量数据场景具备天然优势,逐渐成为大数据时代存储界的后起之秀。

随着数据湖架构在企业市场中的需求越来越广泛,存储作为整个数据湖架构的核心要素,承载着企业近乎全部的数据资产。对象存储究竟有何优势,能够赢得业界青睐,成为数据湖存储底座的最佳之选?

存储全类型数据

对象存储采用弹性的分布式架构,灵活对接各类应用,可汇聚不同类型、不同大小的数据资源(包括结构化、半结构化、非结构化数据,大文件、小文件)。

支撑海量规模

传统文件存储采用树形结构,文件增多,目录层级多,访问性能骤降。对象存储采用“桶-对象”的扁平化结构,通过HASH计算检索文件,海量场景仍然保证高性能,轻松支撑EB级容量空间、千亿级文件规模。

多源数据统一接口

对象存储基于标准的S3或OSS接口,实现私有云与公有云数据自由流动,以及异构存储资源纳管。

云原生支持

文件存储限于局域网访问且需要OS挂载,对云场景支撑乏力。对象存储天然支持跨互联网访问,无需OS挂载更轻量,更适应云原生应用。

混合云架构

为了满足业务合规与敏捷性需求,越来越多的企业选择将互联网应用部署在公有云,以满足弹性、敏捷的需求;将重要数据存放到私有云,以满足安全、合规的需求。对象存储通过S3或OSS接口可无缝对接公有云,快速构建混合云基础架构,在云端与本地之间实现应用平滑迁移和数据自由流动。

通过以上维度对比,对象存储的优势显而易见。


对象存储将成为数据湖的数字底座


从国内外市场需求来看,国外的企业或组织更倾向于采用公有云基础设施,而国内企业则是更倾向于私有云,也因此形成了公有云数据湖和私有云数据湖两种方案,这里选取3家代表厂商进行简单介绍。

作为全球公有云市场的领导者,亚马逊以对象存储(S3)作为数字底座,存储来自不同数据源的结构化、半结构化和非结构化数据,通过安全策略和访问控制保障数据安全,同时支撑数据检索查询、用户界面访问以及数据分析处理等能力。

阿里云同样是以对象存储(OSS)作为数字底座,将阿里云上的日志服务、App/Web、数据集成等产生的超过10000种数据文件类型保存在OSS上,实现海量的数据汇聚,消除数据孤岛;同时为MaxCompute、EMR、机器学习等平台提供支撑,无缝对接超过100种计算引擎,赋能业务创新。



图3.阿里云基于对象存储OSS构建数据湖方案



作为国内对象存储市场的领导者,杉岩数据也推出了以企业存储为基础的智能数据湖解决方案。该方案基于MOS海量对象存储构建海量空间,实现数据库、非结构化文件、流数据等多源数据汇聚;通过纳管异构存储实现硬件利旧;通过高性能数据湖文件网关MosFS对接Hadoop、TensorFlow等分析处理平台,深化价值利用;一体化方案赋能业务创新,为智慧金融、智能制造、智慧教育等行业变革提供基础架构支撑。



图4.杉岩数据基于MOS对象存储的数据湖方案



AI+数据湖时代,对象存储的新场景


对于企业客户而言,贴合实际场景、解决当前痛点、满足未来就绪的方案才是好方案。邱尚高结合一些新兴的应用场景,向与会人士介绍了MOS对象存储以及智能数据湖方案如何为客户创造价值。

大数据存算分离

传统大数据分析平台存在诸多弊端:HDFS多采用三副本,空间利用率低;存储与计算捆绑扩容,拉高成本;Hadoop升级不够灵活,无法享受新版本计算特性。杉岩方案可提供存算分离架构,MOS支持纠删码和冷热数据分层,使磁盘利用率提升80%;存储与计算独立扩容,有效降低成本;存储与计算独立升级,更加灵活。

数据智能处理

MOS依托智能数据处理引擎,将数据处理能力下沉到存储系统内部。基于策略触发,MOS海量对象存储可以自动完成图片转码、视频抽帧、OCR识别等处理任务,简化业务流程,提升处理效率。以智能制造为例,杉岩MOS已经帮助UTAC(联测优特半导体)提升智能质检效率,通过生命周期管理策略设定,在MOS内部完成质检图片的存储、格式转换、冷热分层和过期自动删除,节省80%存储空间,大幅降低成本并简化了业务流程。

机器学习

在MOS之上通过MosFS高性能数据湖文件网关,为TensorFlow等机器学习平台提供原生的HDFS接口、S3/OSS对象接口、POSIX文件接口,满足AI算法的模型训练和推理、数据归档的需求。以自动驾驶场景为例,车辆采集的视频、雷达数据通过文件或对象接口导入MOS,然后通过HDFS接口对数据预处理,预处理结果再通过文件接口由计算服务器进行AI训练和高性能仿真,从而得到新的算法和模型进行下一轮测试。整个过程中,一套存储同时在线、近线、离线使用,数据集中归档无须拷贝,空间利用率更高、数据更安全。

IPFS(Inter Planetary File System)

IPFS场景对底层存储的需求可归纳为几点:庞大的算力集群要求存储吞吐量在100Gbps以上,以保证封装数据的写入效率;每天48次(30分钟一次)的全量证明需要极高的随机读取效率;数据持续可读(历史数据不删除)使得增量巨大(每周PB级),要求存储提供EB级以上容量;超大容量必然由超大集群支撑,高效运维也是刚需。杉岩MOS除了提供EB级海量空间和300Gbps以上的超大吞吐量,还专门针对IPFS数据读作性能优化,将数百次随机读请求合并为一个请求,极大提升效率;基于纠删码(22+2)技术,空间利用率超过91%,硬件成本缩减60%以上;通过多故障域隔离和智能DNS分配技术,轻松管控超大规模存储集群,在提升数据可靠性的同时降低运维复杂度。

云原生OLAP

对海量非结构化数据的分析需求催生了云端数据湖的应用,杉岩针对云原生OLAP场景同样提供了解决之道,通过MOS无缝对接云原生的数据湖,帮助企业快速构建高性能的OLAP服务。对“HDFS+传统数据仓库”而言,海量场景下的性能、并发性和易用性成为难以避免的灾难。杉岩的“MOS+云原生数据仓库”方案,依托弹性架构提供更强的扩展性、高可用性和并发访问能力,在EB级海量数据面前保证优异性能,利用纠删策略、数据分层等特性尽可能降低成本,采用存算分离架构极大提升灵活性,帮助客户对海量数据极速分析,轻松把握商业趋势,及时应对各种变化。


不难看出,杉岩数据植根场景需求,已经围绕MOS海量对象存储构建起了相对完善的数据湖解决方案,为企业应对数据挑战、推进业务创新提供了新的、极具竞争力的选项。


Your privacy is important to us

We use cookies to personalize and enhance your browsing experience on our website. By clicking "Accept all cookies", you agree to the use of cookies. You can read our Cookie Policy for more information.

Phone

Service Hotline

400-838-3331

More contact information

Top

Scan code attention